Sommaire

Introduction 9

Chapitre 1 : Classification non supervisée 25

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2 Approches hiérarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2.1 DIANA : DIvisive ANAlysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2.2 AGNES : AGglomerative NESted clustering . . . . . . . . . . . . . . . . . . . 28

1.3 Approches partitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.3.1 Approches basées sur les prototypes . . . . . . . . . . . . . . . . . . . . . 30

1.3.1.1 KM : les K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . 30

1.3.1.2 SC : clustering spectral . . . . . . . . . . . . . . . . . . . . . . . . 32

1.3.2 Approches basées sur la densité . . . . . . . . . . . . . . . . . . . . . . . . 34

1.3.2.1 DBSCAN : clustering basé sur la densité . . . . . . . . . . . . . . 34

1.3.2.2 SOM : les cartes auto-organisatrices . . . . . . . . . . . . . . . . 35

1.4 Approches floues et probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.4.1 FKM : les K-moyennes floues . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation . . 39

1.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.5.1 Les liens entre familles d’algorithmes de clustering . . . . . . . . . . . . . 41

1.5.2 Le problème du nombre de groupes . . . . . . . . . . . . . . . . . . . . . . 42

1.5.3 Le problème de l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.5.3.1 Mesures basées sur l’énumération . . . . . . . . . . . . . . . . . 44

1.5.3.2 Mesures statistiques basées sur l’entropie. . . . . . . . . . . . . . 45

1.5.4 Le choix de la proximité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.5.5 Le choix de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Chapitre 2 : Classification non supervisée multi-vues centralisée 49

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3 Approches centralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.3.1 MVDBSCAN : DBSCAN multi-vues . . . . . . . . . . . . . . . . . . . . . . 53

2.3.2 COFC : clustering flou collaboratif . . . . . . . . . . . . . . . . . . . . . . . 54

2.3.3 FCPU : clustering flou dans les univers parallèles . . . . . . . . . . . . . . 56

2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives . . . . . . . . 58

2.3.5 COMRAF*: champs aléatoires combinatoires de markov . . . . . . . . . . 61

2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues . . 63

2.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.2 COFKM : clustering flou multi-vues . . . . . . . . . . . . . . . . . . . . . . 66

6 SOMMAIRE

2.4.3 COKFKM : clustering flou multi-vues à noyaux . . . . . . . . . . . . . . . . 73

2.5 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

2.5.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.5.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.5.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.5.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Chapitre 3 : Classification non supervisée et intégration de connaissances 89

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.3 Approches par satisfaction des contraintes . . . . . . . . . . . . . . . . . . . . . . 92

3.3.1 COP-KMEANS : les K-moyennes sous contraintes . . . . . . . . . . . . . . . 92

3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet . . . . . . . 94

3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé . . . . . . . . . 95

3.4 Approches par objectif pénalisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

3.4.1 PCKM : les K-moyennes contraintes pénalisées . . . . . . . . . . . . . . . 98

3.4.2 SSKM : les K-moyennes semi-supervisées . . . . . . . . . . . . . . . . . . 100

3.5 Approches par altération de la proximité . . . . . . . . . . . . . . . . . . . . . . . 101

3.5.1 LLMA : adaptation localement linéaire de la métrique . . . . . . . . . . . 101

3.6 Approches indépendantes de l’algorithme de clustering . . . . . . . . . . . . . . . 104

3.6.1 BC : BoostCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

3.7 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.7.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.7.2 BOC : boosting de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 109

3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering par

optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

3.8 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.8.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.8.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.8.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

3.8.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

3.9 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Chapitre 4 : Classification non supervisée collaborative 145

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

4.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

4.3 Approches de type ensemble de clusterings . . . . . . . . . . . . . . . . . . . . . . 149

4.3.1 Clustering consensus par ensemble de clusterings . . . . . . . . . . . . . . 149

4.3.2 Consensus de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

4.4 Approches collaboratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement automatique

de hiérarchies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

4.4.2 MOCLE : clustering d’ensemble multi-objectif . . . . . . . . . . . . . . . . 156

4.5 Approches alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

4.5.1 COALA : clustering hiérarchique alternatif . . . . . . . . . . . . . . . . . . 158

SOMMAIRE 7

4.5.2 ADFT : apprentissage de distance alternative . . . . . . . . . . . . . . . . 160

4.5.3 CAMI : estimation d’un mélange de modèles alternatifs . . . . . . . . . . 161

4.6 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.6.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus . 166

4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche d’alternatives170

4.7 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

4.7.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

4.7.2 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

4.7.3 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

4.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

Conclusion et perspectives 209

Liste des tableaux 213

Table des figures 216

Liste des algorithmes 218

Bibliographie 221

 

Introduction

La classification non supervisée, ou clustering, est un thème de recherche majeur en apprentissage

automatique, en analyse et en fouille de données ainsi qu’en reconnaissance de

formes. Il fait partie intégrante de tout un processus d’analyse exploratoire de données permettant

de produire des outils de synthétisation, de prédiction, de visualisation et d’interprétation

d’un ensemble d’individus (personnes, objets, processus, etc.). L’objectif est, à partir de données

constituées d’un ensemble d’individus ou objets et d’une relation de proximité entre ceux-ci, de

construire des groupes d’individus homogènes dans le sens où :

– deux individus proches doivent appartenir à un même groupe ;

– deux individus éloignés doivent appartenir à des groupes différents.

Cette introduction a pour but de présenter de manière informelle la problématique à travers

différents problèmes survenant lors de l’élaboration de techniques visant à en apporter des

solutions. Ainsi seront présentés les fondements de toute approche de clustering, les données,

la proximité ainsi que les différents moyens de construire des groupes. Dans un second temps,

par l’intermédiaire d’applications, des problématiques spécifiques seront développées, problématiques

pour lesquelles ce travail de thèse propose des éléments de réponse.

Classification non supervisée

Les données

Le clustering, dans sa forme la plus classique, repose essentiellement et tout d’abord sur des

données. Ces données sont constituées d’un ensemble d’individus associées à une représentation.

FIGURE 0.1—Données désordonnées avant clustering (à gauche) et ordonnées après clustering (à droite).

10 SOMMAIRE

Dans l’exemple présenté en figure 0.1 correspondant à la photo du bureau légèrement désordonné

d’un doctorant en fin de thèse, plusieurs objets ou individus y sont disposés : livres, articles

de recherche, cours, fournitures de bureau, etc. Chacun de ces individus peut être muni

d’une représentation liée à notre perception visuelle de ceux-ci. On peut ainsi associer des attributs

de : largeur, longueur, épaisseur, couleur, présence ou non de texte, présence de dessins,

forme primitive (parallélépipède rectangle, ellipse, cylindre, etc.). Ainsi, nous pouvons dresser

une table non exhaustive des différents objets et de leurs propriétés.

identifiant

largeur

longueur

épaisseur

couleur

texte

dessins

forme

Livre 1 19 23 2,5 Noir 1 1 Rect.

Livre 2 16 24 2 Rouge 1 1 Rect.

Livre 3 14 22 1,3 Blanc 1 1 Rect.

Article 1 29,8 21 0,2 Blanc 1 0 Rect.

Article 2 29,8 21 0,2 Blanc 1 1 Rect.

Peluche 1 18 20 13 Roux 0 0 Ellipt.

Peluche 2 14 25 40 Camel 0 0 Ellipt.

Ciseaux 8 22 1 Argent 0 0 Triang.

Tasse 11 11 7,5 Multi. 0 1 Cylind.

Crayon 0,7 17 0,7 Vert 0 0 Cylind.

Nous pouvons noter que de premiers problèmes interviennent, notamment en ce qui concerne

l’intervalle des valeurs que peut prendre une propriété donnée pour un individu :

– celui-ci est-il fini (ensemble des dénominations de couleurs, ensemble des valeurs flottantes

mesurables exactement avec une règle) ou infini (ensemble des valeurs réelles) ?

un individu est-il rouge, ou à 85,67% rouge ? on parle de domaine de valeurs discret

dénombrable et de domaine indénombrable ou continu ;

– un individu est-il noir, ou noir et orange, mais à dominante noir ?, à 80% noir et 20%

orange ? on parle de mono-valuation ou de multi-valuation.

La proximité

La représentation permet de comparer différents profils d’individus. Cette idée de comparer

les individus correspond au second fondement clé de tout algorithme destiné à une tâche de

classification automatique : la mesure de proximité. À partir de la représentation construite dans

l’exemple, nos pouvons réfléchir à une notion de proximité entre deux individus.

Dans la grande majorité des cas, nous considérons que deux individus sont proches si, pour

chaque propriété présente dans la représentation, les valeurs de cette propriété pour ces individus

sont proches. Par exemple, ici, nous pouvons considérer que les trois livres sont proches au

sens de leur forme primitive, et que les ciseaux et le livre 3 sont proches au sens de l’épaisseur.

Nous pouvons faire l’hypothèse que l’ensemble des propriétés présentes dans la représentation

ne sont pas toutes utiles, ou certaines, moins que les autres. Cette hypothèse est présente dans

de nombreux travaux actuels en classification non supervisée, et vise à sélectionner les propriétés

les plus pertinentes, ou bien à réduire l’importance de celles qui sont les moins utiles ou

informatives. Quoi qu’il en soit, certaines combinaisons particulières de propriétés permettent

d’identifier plus facilement un groupe d’individus relativement aux autres, et peuvent avoir une

sémantique bien particulière ; ils portent le nom de concept. Ici un concept serait celui de volume

comprenant à la fois les propriétés de longueur, de largeur, et d’épaisseur.

SOMMAIRE 11

La mesure de proximité peut prendre diverses formes mais elle permet toujours de quantifier

la ressemblance ou dissemblance entre les individus. Ainsi, dans l’exemple, nous pouvons attribuer

une valeur numérique de proximité entre deux individus, en réalisant la somme des écarts

en valeur absolue des valeurs numériques pour les propriétés du concept volume :

proximit_e(Objet 1; Objet 2) = jval1(longueur) 􀀀 val2(longueur)j

+ jval1(largeur) 􀀀 val2(largeur)j

+ jval1(_epaisseur) 􀀀 val2(_epaisseur)j

vali(P) correspond à la valeur prise par l’objet i pour la propriété P. De cette mesure, on

peut déduire l’application aux données suivante :

proximit_e(Livre 3; Ciseaux) = j14 􀀀 8j + j22 􀀀 22j + j1; 3 􀀀 1j = 6; 3

proximit_e(Livre 2; Livre 3) = j16 􀀀 14j + j24 􀀀 22j + j2 􀀀 1; 3j = 4; 7

Ainsi, on peut déduire des valeurs de proximité, que le livre 2 est plus proche du livre 3,

que celui-ci ne l’est des ciseaux. Cette conclusion est dressée à partir du fait que le choix du

calcul de la somme des différences en valeur absolue des valeurs de propriétés correspond à une

distance. Ainsi deux objets sont proches si ils sont à distance faible l’un de l’autre. D’autre choix

sont possibles pour définir une proximité, et peuvent avoir des comportements différents c’est le

cas des mesures de similarité. Les différents types de mesures de proximité sont catégorisées en

distances, dissimilarités, similarités, et écarts avec pour chacune, des propriétés mathématiques

spécifiques.

En général, le calcul de la mesure de proximité se fait en tenant compte de toutes les propriétés

des individus. Plusieurs problèmes se posent alors :

– comment établir une distance entre deux valeurs non numériques pour une propriété ? la

distance entre Roux et Noir est-elle la même qu’entre Roux et Camel ?

– il existe plusieurs façons de calculer une proximité, quelle mesure choisir ? laquelle est la

plus adaptée ?

Enfin, il arrive parfois que la représentation des individus soit inconnue ou non accessible.

Dans ce cas, la mesure de proximité est connue pour chaque paire d’individus. On parle alors de

données relationnelles, par opposition aux données de l’exemple, dites vectorielles, car chaque

individu est décrit par un vecteur de valeurs correspondant aux propriétés. Une distinction existe

également au sein d’une représentation vectorielle selon les types associés aux valeurs de propriétés

(booléen, entier, flottant, chaîne de caractères, etc.). On parle alors de données numériques

(flottant, entier) ou symboliques (entier, chaîne de caractères, booléen).

La construction des groupes

Se fondant ainsi sur des données et une mesure de proximité quantifiant la ressemblance

ou la dissemblance entre les individus, nous pouvons désormais définir de manière informelle

la tâche du clustering comme le développement d’algorithmes capables de construire un ensemble

fini de groupes disjoints d’individus, ou clusters, de telle sorte que deux individus proches

(respectivement éloignés) soient dans un même groupe (respectivement dans des groupes différents).

La figure 0.1 présente ce à quoi ressemble un résultat de clustering, un ensemble de

groupes contenant des individus proches.

12 SOMMAIRE

Les groupes sont représentés ici par les piles d’individus (livres, articles, etc.) présentes sur

le bureau. Dans l’exemple, on trouve des piles ou paquets de livres, d’ustensiles de bureau, ou

de peluches, etc. Ainsi, le clustering revient à déplacer les individus de manière à ranger ceux-ci

en catégories typiques. Ceci est équivalent in fine à ne pas déplacer les individus mais à leur

attribuer à chacun l’étiquette de la catégorie leur correspondant. Ce clustering, ou processus

de construction des groupes, peut prendre diverses formes. Une approche peut être de séparer

en plusieurs tas dissemblables d’individus l’ensemble de tous les individus, ou bien de prendre

chaque individu comme un tas et de rapprocher les tas les plus similaires, et ce jusqu’à atteindre

un nombre de tas satisfaisant. Une autre manière consiste à identifier immédiatement un ensemble

de paquets homogènes d’individus de taille fixée, dans le sens où, dans chaque paquet,

les individus partagent un même ensemble de propriétés. Une correction peut alors être effectuée

en changeant l’étiquette de certains individus si l’on s’aperçoit que ceux-ci partagent plus

de propriétés avec les individus d’autres paquets. Ces éléments prennent régulièrement la forme

de paramètres associés au processus de construction des groupes.

Notons qu’après avoir choisi la mesure de proximité entre les individus, et la manière de

procéder à la construction des groupes, un praticien peut ne pas être satisfait du résultat produit.

Ainsi, si les groupes obtenus ne correspondent à ses attentes, il convient de remettre en cause le

choix de la mesure de proximité, ou les données en considérant :

– une incertitude et/ou une imprécision relative à la description, représentation des individus.

On parle de bruit dans les données, que l’on peut prendre en compte en conservant

la même mesure de proximité, mais en réduisant l’importance de certaines propriétés relativement

aux autres.

– l’existence de certains liens entre propriétés tels que les valeurs de ces propriétés soient

partagées de manière équivalente (ou au contraire différentes) par les individus d’un

même groupe. On parle ainsi de propriétés corrélées positivement, négativement, ou non

corrélées.

– l’existence d’individus éventuellement atypiques qui peuvent perturber le processus de

construction des groupes. Dans ce cas on peut envisager de les écarter dans un premier

temps, et de les réintégrer ou non ultérieurement.

Ainsi le processus d’analyse exploratoire de données est un processus non linéaire qui nécessite

d’introduire des boucles de rétroaction afin d’orienter le choix de la représentation des

individus et de la mesure de proximité entre ceux-ci (figure 0.2). Cette première analyse à visée

plutôt pédagogique avait pour but de présenter de manière informelle les différentes étapes

intervenant lors de l’analyse exploratoire de données classiques, ainsi que le cadre dans lequel

s’inscrit le processus de construction des groupes, central dans ce travail de thèse. Je vais maintenant

m’exercer à présenter le deuxième objet central dans ce travail de thèse, et qui concerne

la nature des données à analyser ou regrouper : la multiplicité des sources et des représentations

des données.

Représentation Proximité Clustering

Individus groupes

d'individus

FIGURE 0.2 — Schéma du processus d’analyse exploratoire des données concernant le clustering.

SOMMAIRE 13

La multiplicité des sources d’informations

Les données et les sources de données

Il est désormais possible, et fréquent, de disposer de plusieurs représentations pour un même

ensemble d’individus [Bickel and Scheffer, 2004]. Ainsi de nouveaux défis interviennent autour

de la construction de groupes d’individus désormais signifiés comme multi-représentés. La disponibilité

de plusieurs représentations offre naturellement la possibilité de multiples regroupements,

propres à chacune d’entre elles. Ce résultat peut permettre à un utilisateur d’avoir

plusieurs groupements utiles pour une interprétation variée des données, mais cette multiplicité

d’interprétations nécessite d’être contrôlée. Ainsi, selon la volonté pour un utilisateur d’avoir

un seul ou plusieurs regroupements des individus, l’ensemble des représentations de ceux-ci

devront être prises en compte, pour enrichir le processus de construction des groupes. Dans

l’exemple précédent, nous avons construit une représentation des individus présents sur le bureau

selon les propriétés que l’on pouvait déterminer à partir de notre perception visuelle de

ceux-ci. Or les mêmes individus peuvent naturellement être appréhender via d’autres modes

d’intéraction, comme le toucher. Ainsi nous pouvons construire une nouvelle représentation des

individus, en considérant ce nouveau capteur sensoriel ou sens :

identifiant

masse

épaisseur

texture

chaleur

forme

Livre 1 Lourd Moyen Lisse Froid Rect.

Livre 2 Moyen Moyen Lisse Froid Rect.

Livre 3 Léger Moyen Lisse Froid Rect.

Article 1 Très léger Très mince Lisse Moyen Rect.

Article 2 Très léger Très mince Lisse Moyen Rect.

Peluche 1 Léger Épais Poilu Moyen Ellipt.

Peluche 2 Léger Très épais Poilu Moyen Ellipt.

Ciseaux Léger Mince Lisse Très froid Triang.

Tasse Moyen Épais Rugueux Très froid Cylind.

Crayon Très léger Très mince Lisse Froid Cylind.

Nous pouvons définir une nouvelle mesure de proximité se fondant sur cette nouvelle représentation

des individus et déduire un regroupement supplémentaire, alternatif au premier. Nous

pouvons également envisager de regrouper les deux représentations en une seule et définir une

mesure de proximité générale, ou bien encore considérer une telle mesure de proximité générale

comme un mélange des deux mesures. Ainsi nous pouvons obtenir un seul regroupement

des individus déterminé par le choix d’une proximité définie à partir de toutes les représentations.

Nous pouvons également envisager d’obtenir ce regroupement en construisant localement

(grâce à chaque représentation ou vue des données) un ensemble de groupes en observant ceux

en construction dans les autres vues.

Notons que la définition d’une proximité mélangeant les différentes représentations, conjointe

à l’identification de concepts, ouvre quelques problèmes. Certains concepts peuvent être transversaux

à plusieurs représentation. Par exemple, un concept transversal ici pourrait être celui de

la masse volumique associées aux différents individus, car il fait intervenir le concept de volume

(identifié dans la première représentation) et la propriété de masse (présente dans la deuxième

représentation). Un autre problème peut concerner l’existence de propriétés communes et ainsi

excessivement corrélées comme la propriété d’épaisseur. On pourrait néanmoins envisager que

les valeurs diffèrent selon le capteur ou sens utilisé pour appréhender les individus. C’est le cas

14 SOMMAIRE

ici, pour l’attribut d’épaisseur. Ainsi, un problème majeur est celui de savoir quelle représentation

apporte le moins d’imprécision sur la mesure de cette propriété. Voilà quelques problèmes

complexes qui peuvent survenir lors de la prise en compte de plusieurs représentations simultanément.

Cette problématique est le thème majeur de ce travail de thèse qui concerne le développement

de méthodes de classification non supervisée adaptées aux données dans un contexte de

multiplicité des représentations. Avant de donner de plus amples détails sur les problématiques

qui interviennent, nous nous éloignerons de l’exemple pédagogique pour présenter concrètement

quelles sont les données types concernées par la multiplicité des sources et des représentations.

Les données multi-vues se retrouvent dans les diverses disciplines produisant de gigantesques

quantités de résultats d’analyses concernant des objets d’études particuliers : des gènes

pour les biologistes, des molécules pour les chimistes, des patients pour les médecins, etc.

Les données de la biologie. Dans le cadre de l’analyse du transcriptome, afin d’identifier

des gènes qui interviennent dans les mêmes processus biologiques, gènes dits co-régulés, les

bio-informaticiens analysent l’activité de ces gènes selon différentes conditions expérimentales

(correspondant chacune à une représentation des gènes). De plus, des informations supplémentaires

peuvent être extraites d’autres sources pour enrichir ces représentations dans un but par

exemple de reconstruction d’un réseau de régulation génétique [Yamanishi et al., 2004] :

– les localisations de différentes protéines (encodées par des gènes particuliers) dans des

régions intracellulaires ;

– les profils phylogénétiques d’organismes, qui contiennent chacun un ensemble de protéines.

Ainsi pour chaque protéine on peut obtenir l’information de présence/absence de

cette protéine dans chaque organisme ;

– les informations de compatibilités chimiques entre enzymes. L’hypothèse admise est qu’un

lien existe entre de telles enzymes si elles partagent au moins un de leurs composés.

On peut également joindre aux mesures d’expressions l’analyse de documents de la littérature

concernant ces gènes et constituer pour chacun d’eux un vecteur de termes apparaissant

dans les documents scientifiques [Zeng et al., 2010].

Les données de la médecine. Dans le domaine de la médecine, différentes sources de données

peuvent être intégrées dans un processus d’analyse complexe [Martin et al., 2006] :

– des données cliniques contiennent l’âge, le poids, le sexe pour un ensemble de patients,

ainsi que la taille et le stade de la tumeur, ainsi que diverses informations sur les ganglions

lymphatiques ou des résultats d’analyses de coupes histologiques ;

– des données catégorielles correspondent à une classification de la tumeur selon sa malignité

;

– des données issues de l’analyse de puces à ADN afin d’identifier les relations entres gènes

à partir de leurs expressions dans différentes tumeurs.

Les données du marketing. Dans le contexte du marketing, des informations sur un même

ensemble de clients sont disponibles à partir de différentes bases de données (banque, magasin,

administration, etc.). On considère ici qu’une compagnie puisse collecter des informations sur un

groupe de clients à partir de ces différentes bases pour constituer sa propre base de données. Les

différentes entités ne pouvant ainsi pas échanger directement des informations pour des raisons

de sécurité ou de confidentialité, les différentes données disponibles sont désignées comme

multi-vues, chaque vue correspondant à une source différente [Pedrycz, 2002].

SOMMAIRE 15

Les données multimédia. Les documents web, par leur nature, sont également des données

multi-vues [Bekkerman and Jeon, 2007]. Chaque page web peut être décrite selon :

– le vocabulaire textuel i.e. l’ensemble des mots pertinents apparaissant dans cette page ;

– le vocabulaire graphique i.e. l’ensemble des images présentes dans le document web ;

– le vocabulaire hypertextuel correspondant aux liens sortant de la page. Notons que l’on

peut obtenir également les liens entrant vers la page à partir d’un corpus de documents

web en étudiant les liens sortant de chacun.

Une analyse d’un ensemble de pages peut permettre de constituer des groupes de documents

à différents niveaux, afin d’offrir une organisation thématique de ces derniers. Chacun de ces

vocabulaires est alors une vue différente de l’ensemble des pages web.

Les données de reconnaissance de caractères. Les techniques d’apprentissage sont également

appliquées dans le domaine de la reconnaissance automatique de caractères manuscrits,

comme la reconnaissance de code postal sur une adresse. Ces techniques imposent la définition

d’une représentation des chiffres manuscrits. Une telle représentation peut être obtenue par des

techniques de traitement du signal comme la transformée de Fourier, mais elle peut être complétée

également par d’autres approches différentes capables de capturer une transformation

naturelle des individus (une rotation ou une translation) [van Breukelen et al., 1998]. L’utilisation

conjointe des différentes représentations permettent également de réduire globalement le

bruit.

De la forme des données

Dans la réalité portée par les applications, les données multi-représentées peuvent se présenter

de multiples manières. En effet, nous avons vu que parmi les cadres applicatifs majeurs

dans lesquels on trouve de telles données, l’aspect décentralisé ou distribué des données est très

présent et forme une caractéristique prégnante. Ces données multi-vues peuvent à la fois être

distribuées :

– selon des groupes de variables, une vue correspondant à un groupe de variables décrivant

un aspect nouveau sur l’ensemble des individus.

– selon des groupes d’individus, une vue est alors un échantillon particulier de l’ensemble

des individus.

– dans le cas général, à la fois selon les individus et selon les variables. Des recouvrements

peuvent exister entre les individus et les variables dans des vues différentes.

Ces différents cas sont présentés de manière schématique dans la figure 0.3. Dans cette thèse

les différentes techniques présentées et approches proposées s’attachent à traiter le premier cas.

C’est à dire où l’ensemble des individus (identique dans toutes les vues) est distribué selon des

groupes de variables.

De l’organisation intrinsèque des données multi-vues. Parmi les caractéristiques des données

multi-vues, relatives à l’existence d’une organisation en groupes des individus, on peut se

questionner sur la définition des groupes parmi l’ensemble d’individus, ainsi que les concepts

associés. Dans un cadre complètement non supervisé, on ne peut formuler que des hypothèses

sur la relative étendue des concepts présents parmi les différentes vues. Ainsi :

– chaque vue peut correspondre à un ensemble de descripteurs visant à exprimer un ensemble

de concepts semblables aux descripteurs des autres vues. En d’autres termes, les

organisations induites par chaque vue sont naturellement proches et on cherchera à faire

émerger la meilleur organisation globale des individus.

16 SOMMAIRE

Individus

variables

vue 1

vue 2

vue 3

Individus

variables

vue 1

vue 2

vue 3

Individus

variables

vue 1

vue 2

vue 3

vue 1

vue 2

vue 3

FIGURE 0.3 — Les types de données multi-vues. Dans l’ordre, ci-dessus, les données multi-vues décentralisées

selon les variables, selon les individus et selon les variables et les individus simultanément.

– chaque vue est constituée d’un ensemble de descripteurs visant à représenter un ensemble

de concepts indépendants des concepts existants dans les autres vues. Dans ce cas les

organisations locales naturelles sont différentes, et chaque groupe devrait n’être défini

uniquement dans une vue des données.

– dans le cas hybride : chaque vue exprime un ensemble de concepts et une partie des

concepts de chaque vue correspond à une partie des concepts présents dans toutes ou

partie des autres vues. Dans ce cas général les groupes sont identifiables en tenant compte

simultanément de l’ensemble des vues mais également de l’importance relative de chacune

d’entre elles dans la définition de chaque groupe.

Problématique et problématiques

La multiplicité est désormais très présente dans les communautés liées à la classification automatique

. Cette multiplicité concerne autant les données auxquelles les approches présentées

dans cette thèse tentent d’apporter des éléments d’analyse et de structuration, que les expertises

pouvant être établies sur ces même données. Dans ce contexte, différents paradigmes ont été développés

en apprentissage non-supervisé, en fouille de données ou en reconnaissance de formes.

Ils permettent l’intégration de plusieurs sources d’informations afin d’établir un ensemble ou

plusieurs ensembles d’hypothèses de classification sur des données non étiquettées.

Clustering semi-supervisé. Le paradigme du clustering semi-supervisé concerne l’utilisation

d’un ensemble de connaissances a priori sur l’appartenance ou non de paires d’individus à un

même groupe. Cette information peut se présenter de deux façons différentes :

– on dispose pour chaque individu pris parmi les connaissances a priori, de son étiquette de

classe ou de l’hypothèse d’un expert sur l’individu ;

– on dispose pour chaque paire d’individus pris parmi les connaissances a priori, d’une

contrainte indiquant si les deux individus doivent, ou ne doivent pas appartenir à un

même groupe.

On requiert en général que les méthodes de clustering semi-supervisées soient capables de satisfaire

au mieux les connaissances disponibles et que l’utilisation de celles-ci permettent d’améliorer

la production des hypothèses sur les appartenances de tous les individus. Il existe de plus

d’autres formes de contraintes qui peuvent concerner notamment : les contraintes sur la taille

SOMMAIRE 17

des groupes si nous disposons d’une connaissance sur l’homogénéité de ceux-ci, les contraintes

de densité où l’on peut imposer une distance minimum entre les groupes, ainsi qu’une distance

maximum entre deux individus d’un même groupe.

Clustering multi-vues. Le paradigme du clustering multi-vues consiste à obtenir un unique

clustering d’un ensemble d’individus décrits par de multiples représentations (données multireprésentées)

que l’on appellera vues :

– on dispose pour chaque individu de plusieurs espaces de représentations, ou ensembles de

variables. Il s’agit dans ce cas de données vectorielles multidimensionnelles ;

– on dispose pour chaque paire d’individus d’une information relationnelle sur leur proximité

(distance, dissimilarité, similarité ou écart). Il s’agit dans ce cas de données relationnelles

multidimensionnelles.

Notons que dans le cas des données relationnelles multidimensionnelles ou des données

vectorielles multidimensionnelles de même dimensions, on peut parler de tenseurs d’ordre 3 ou

de cube de données, pour représenter de telles données.

Dans le cadre des recherches dans le domaine du clustering de données multi-vues, on émet

l’hypothèse suivante que l’on va chercher à réaliser : chaque vue apporte suffisamment d’informations

pour réaliser un bon clustering (mais perfectible) de l’ensemble des individus, mais un

meilleur clustering peut être obtenu par une utilisation conjointe de l’ensemble des vues.

Clustering d’ensemble. Le paradigme du clustering d’ensemble consiste à obtenir un clustering

d’un ensemble d’individus à partir d’un ensemble de résultats de clustering différents, obtenus

par de multiples expertises apportées sur une même vue des données :

– les expertises apportées peuvent être certaines, auquel cas les clusterings correspondants

seront dit durs ou stricts ;

– les expertises apportées peuvent être incertaines, auquel cas les clusterings correspondants

seront dit flous, ou probabilistes.

Dans les travaux sur le clustering d’ensemble, et dans le même esprit que le clustering multivues,

on émet l’hypothèse qu’un clustering consensus construit à partir de l’ensemble des clusterings

disponibles sera meilleur que chaque expertise ou jugement pris isolément. Ces différents

résultats de clustering peuvent avoir été obtenus par application de plusieurs algorithmes ou

l’application du même algorithme mais avec des paramétrages différents, ou bien encore, par

sous-échantillonage des données (individus ou descripteurs).

Clustering alternatif. Le paradigme du clustering alternatif consiste à obtenir plusieurs clusterings

à partir d’un ensemble d’individus décrits par une unique vue, et tels que :

– les clusterings obtenus soient de bonnes qualités ;

– les clusterings obtenus soient dissimilaires entre eux.

L’objectif sous-jacent aux techniques de clustering alternatif est de proposer à l’utilisateur

un choix plus vaste de clusterings possibles pour une meilleure interprétation lors de l’analyse

exploratoire. L’idée générale existe depuis longtemps et concerne notamment l’application d’un

même algorithme de clustering sur un même jeu de données, mais avec des paramétrages différents.

Cependant, elle a pris la forme d’un objectif contrôlé de recherche de dissimilarité entre

les différents résultats de clusterings, introduisant de ce fait une dépendance entre les clusterings

résultats à construire. Elle peut s’appliquer également dans le cas où l’on a à disposition des

données multi-représentées et où l’on cherche localement un clustering optimal, mais que les

clusterings locaux optimaux restent dissimilaires entre eux, ceci afin de maintenir de la diversité.

Cette problématique a également été formalisée dans le cas où l’on a à disposition un jeu de

18 SOMMAIRE

données mono-vue et une partition de cet ensemble d’individus. La tâche est alors de trouver

(au moins) un nouveau clustering tel que celui-ci soit optimal pour l’ensemble des individus à

disposition et différent de la partition donnée.

Liens entre les problématiques. L’ensemble de ces problématiques sont en réalité assez proches,

et c’est pour cette raison que cette thèse propose de les mettre en commun et de les explorer.

Les problématiques du clustering multi-vues et du clustering d’ensemble sont connexes de par

les propriétés du clustering objectif (le consensus), mais diffèrent par l’entrée donnée aux méthodes

répondant à ces problématiques (plusieurs descriptions d’un ensemble d’individus d’une

part, plusieurs matrices de partitions d’autre part). Au second problème s’ajoute alors la prise

en compte des descriptions des données et leur exploitation pour répondre au premier problème,

donnant lieu ainsi au clustering collaboratif. Le clustering alternatif peut être vu comme

une problématique duale aux deux précédentes, dans la mesure où, plutôt que de chercher un

clustering unique consensus à partir de plusieurs clusterings provenant d’une ou plusieurs vues

des données, on recherche un ensemble de clusterings dissimilaires, à partir d’une seule vue des

données. Cependant, et dans la mesure où l’efficacité des méthodes d’ensemble repose sur une

forme de diversité de l’ensemble des hypothèses à unifier, la recherche de clusterings alternatifs

peut alors être le préalable adéquat à la recherche de consensus par clustering d’ensemble. Le

clustering semi-supervisé, quant à lui, pourrait être considéré comme l’utilisation d’une matrice

de partition partielle (peu de paires d’individus sont réellement identifiées comme étant dans un

même groupe ou non), dans un clustering classique. On dispose ainsi d’une vue dans lesquels les

individus sont décrits, et d’une autre vue correspondant à une partition de ce même ensemble

d’individus, avec des valeurs manquantes. Enfin, dans la lignée du développement autour du

clustering alternatif, une famille d’approches considère une matrice de partition complète des

individus à utiliser dans un clustering classique mais pour trouver une partition alternative différente.

Les travaux concernant ce type de clustering alternatif suivent directement les travaux

du clustering semi-supervisé, où cette fois la matrice de partition sert à générer des contraintes

opposées, dans l’esprit, à ce qui est connu dans la partition pour forcer l’algorithme de clustering

à découvrir des groupes différents. Les différentes problématiques sont schématisées dans

la figure 0.4.

Contributions et organisation

L’objectif de la thèse est de dresser un état de l’art des différentes techniques dédiées au

traitement de données multi-vues et d’offrir à la communauté des approches nouvelles et/ou

innovantes pour l’analyse exploratoire de telles données. Le développement d’approches permettant

cette analyse conduit à en étudier les avantages, les cas d’applications et les limites

et, dans le cas de ces dernières, à proposer de les outrepasser. Les limites inhérentes aux premières

approches de clustering multi-vues, constatées après une étude préalable de l’état de

l’art, concerne l’imposition trop arbitraire de paramètres nécessaires à l’expression d’un modèle

intuitif, effectivement et aisément réalisable et implémentable, et offrant de bonnes propriétés

de convergence. Ce constat a alors entraîné l’exploration de nouveaux moyens d’obtenir des

solutions plus flexibles au regard de ces limites, mais moins élégantes et fondamentalement

moins maîtrisées et contrôlées. Cela a conduit à l’étude des multiples paradigmes associés à la

multiplicité des sources de données et/ou d’expertises sur ces données.

Faisant ainsi face aux diverses problématiques posées par l’analyse des données issues de

plusieurs sources d’informations, les contributions apportées concernent à la fois le clustering

multi-vues, le clustering sous contraintes ou clustering semi-supervisé, et enfin le clustering d’ensemble

et le clustering alternatif.

SOMMAIRE 19

Données

simple vue

Partition

Partielle

Clustering

semi-supervisé

Partition

Données ...

vue 1

Données

vue 2

Données

vue V

Clustering

multi-vues

Partition

consensus

Partition 1 Partition 2 ... Partition V

Clustering

ensemble

Partition

consensus Partition 1 Partition 2 ... Partition V

Clusterings

alternatifs

Données

simple vue

FIGURE 0.4 — Problématiques liées à la multiplicité dans les données. Dans l’ordre, ci-dessus, les problématiques

du clustering semi-supervisé, puis le clustering multi-vues, le clustering d’ensemble et enfin le

clustering alternatif.

Contributions au clustering multi-vues. Notre contribution au clustering multi-vues se concrétise

par une approche permettant d’obtenir une unique partition à partir d’un ensemble d’individus

multi-représentés, ainsi qu’une extension permettant le traitement d’un ensemble de

relations sur ce même ensemble d’individus. Les méthodes usuelles consistent à chercher à réduire

un désaccord entre les partitions obtenables dans chaque vue. Néanmoins l’étude de ces

approches dresse le bilan d’une nécessité d’imposer des choix arbitraires sur les modèles pour obtenir

des solutions analytiques élégantes, intuitives et convergentes. L’approche COFKM repose

sur l’optimisation d’une fonction objectif permettant simultanément de découvrir les groupes

naturels présents dans chaque vue des données et d’assurer la réalisation d’un accord entre les

différentes vues, au sens où les groupes obtenus dans chacune des vues doivent être similaires.

L’utilisation de COFKM nécessite d’avoir à disposition la description sous forme vectorielle de

chaque individu dans chaque vue, cette limite est dépassée par la seconde approche : COKFKM.

COKFKM permet non seulement de s’abstraire du type de représentation vectoriel contraignant,

puisqu’elle repose sur la donnée pour chaque vue d’une information relationnelle sur l’ensemble

des individus, mais offre également la possibilité d’utiliser différentes mesures de proximité

pour chaque vue. Ceci permet de mieux correspondre avec la distribution naturelle locale (dans

chaque vue) des individus. Des limitations d’ordre plus général sont apparues et se sont révélées

a priori insolubles dans le modèle proposé. Nous nous sommes ainsi orientés vers une autre

méthode pour réaliser un clustering consensus d’un ensemble d’individus. Celle-ci propose de

20 SOMMAIRE

réaliser un consensus par échange de messages entre différents algorithmes de clustering appliqués

dans chaque vue.

Ouverture aux autres problématiques liées à la multiplicité. Afin d’expliciter au mieux l’intuition

sous-jacente à la suite des premières contributions, nous pouvons « humaniser » le principe

de l’approche envisagée. Chaque vue des données induit naturellement une ou plusieurs

organisations naturelles. Tout algorithme de clustering permet de retrouver une de ces organisations

naturelles en groupes. On peut alors envisager d’appliquer un algorithme de clustering

différent par vue pour obtenir une partition des individus qui peut s’avérer bien différente de

celles obtenues dans les autres vues. Par une analogie grossière, mais pédagogique, on peut

envisager que chacun de ces algorithmes de clustering soit un agent. L’objectif de cet agent est

de produire le clustering qu’il jugera le meilleur selon son critère (sa fonction objectif) et ses

a priori (ses paramètres) à partir de la distribution naturelle des individus. Le clustering produit

via un raisonnement (le déroulement de l’algorithme) est une décision pour chaque paire

d’individus (regroupés ou non regroupés) et prend la forme d’un ensemble d’hypothèses si l’on

considère un principe d’incertitude relatif à l’agent et à sa décision. Une fois ses hypothèses

émises, il peut associer à chacune un degré de confiance (principe d’incertitude). Les deux hypothèses

possibles deviennent pour chaque paire : les deux individus présents dans la paire

sont ensemble ou ne sont pas ensemble. Ainsi, à l’issue du raisonnement, l’agent peut, si il le

souhaite, transmettre aux autres agents des messages, concernant certaines paires d’individus,

du type : « je suggère de ne pas mettre ses individus dans un même groupe » ou « je propose

de regrouper ces deux individus ». Selon cette perspective, nous pouvons ainsi suggérer la recherche

d’un clustering consensus, en cherchant à faire collaborer les divers agents pour que

les suggestions (hypothèses) émises par chacun permettent à tous de produire une décision

communément acceptable, dans le sens où les décisions finales (ou l’ ensemble des hypothèses)

issues du raisonnement de chacun tendent vers une même solution. Ce principe relève du sens

commun et du bien fondé de l’acceptation des divergences d’opinions, de remises en cause de

ses propres points de vues pour arriver à des réponses consensuelles à des questions complexes.

Pour revenir à une terminologie plus usuelle dans les communautés scientifiques s’attaquant

au clustering multi-vues, nous parlerons de contraintes sur les paires d’individus, qui seront

transmises d’une vue vers les autres et que celles-ci devront satisfaire pour aller vers une solution

globale souhaitée, par exemple, un ensemble de solutions locales proches entre elles, qui revient

à réaliser un consensus. Le principe de cette approche a conduit dans un premier temps à étudier

des méthodes apportant des solutions à la problématique du clustering sous contraintes et, dans

un second temps à la proposition d’une approche répondant à cette problématique.

Contributions au clustering semi-supervisé. Les contributions au clustering semi-supervisé

ont été réalisées au travers d’approches permettant l’intégration de connaissances externes sous

forme de contraintes sur certaines paires d’individus, devant (ou ne devant pas) appartenir à un

même groupe. Parmi les constats majeurs admis concernant cette problématique, deux points

sont à observer avec attention :

– Les approches sont, à de rares exceptions près, limitées par la nécessité d’imposer un algorithme

de clustering particulier. Historiquement, les algorithmes de la littérature étaient

dédiées à la satisfaction absolue des contraintes données, faisant face ainsi directement

dans le cas général, au problème bien connu de la NP-complétude du problème de la satisfiabilité

auquel on peut, dans ce contexte, se réduire. L’intégration de procédures de

tests de satisfiabilité des contraintes s’intégrant plus facilement lorsque l’algorithme de

clustering est fixé, la limitation apparaît alors clairement. Pour «échapper» au problème de

satisfiabilité, de la même manière que pour tenir compte d’incertitudes sur les contraintes

SOMMAIRE 21

données, la satisfaction absolue de celles-ci a été relâchée. Les approches suivantes sont

restées malgré cela dépendantes d’un algorithme en particulier, dans le but de satisfaire

à une rigueur mathématique et esthétique (propriétés de convergence, contrôle optimal,

etc.).

– Lorsqu’elles ne sont pas dépendantes d’un algorithme en particulier, les propositions de

l’état de l’art consistent essentiellement à modifier la relation de proximité émanant des

données dans le but de préparer en amont une meilleure satisfaction des contraintes par

un algorithme de clustering quelconque. Néanmoins, ces méthodes souffrent de l’absence

d’un dialogue (et d’un contrôle sur ce dialogue) entre l’hypothèse réalisée par le calcul de

la nouvelle proximité et l’impact de celle-ci sur l’algorithme de clustering.

Partant de là, les contributions BOC, UZABOC et ADAUZABOC permettent l’intégration de

contraintes et leur satisfaction par un algorithme de clustering quelconque. Ces approches sont

basées notamment sur un contrôle de l’adéquation entre la modélisation de l’intégration des

contraintes, et la satisfaction de celles-ci. BOC présente le défaut de ne bénéficier que d’une

convergence programmé et non prouvée, ainsi que d’un manque de contrôle sur l’optimalité de

la solution. UZABOC outrepasse ces limitations en utilisant un algorithme d’optimisation numérique

permettant de caractériser l’optimal en atteignant une convergence numérique. ADAUZABOC

est une version adaptative de la précédente, pour laquelle notamment la convergence est

atteinte plus rapidement. Suivant l’objectif d’un modèle générique dont le principe est l’échange

de contraintes entre algorithmes de clustering, nous avons choisi d’étendre l’algorithme ADAUZABOC

en vue de satisfaire l’objectif initial de clustering dans un contexte de multiplicité des

données.

De la généricité d’un modèle face à de multiples contextes d’application. Pour finir, la dernière

approche est en réalité une plateforme générique instanciable en deux variantes, permettant

d’attaquer les différents problèmes de recherche de consensus et d’alternatives. L’approche

COBOC est complètement générique et répond à la problématique du clustering multi-vues. Elle

propose dans chaque vue de produire un clustering local naturel, mais conscient des organisations

naturelles existantes dans les autres vues, par l’intermédiaire de contraintes. La problématique

de génération de bonnes contraintes est alors centrale dans le but d’obtenir des solutions

locales proches dans toutes les vues. COBOC est une approche fondée sur des heuristiques frugales

de génération de contraintes qui permettent de moduler d’une part, entre recherche de

solutions locales similaires ou dissimilaires (alternatives) entre elles, et d’autre part, de produire

un clustering local final dans chaque vue alternatif au clustering naturel sans intégration

de contraintes émanant des autres vues. La volonté d’obtenir un consensus par génération de

contraintes externes est à rapprocher des techniques visant à obtenir un consensus de partitions

comme la recherche de partitions médianes ou le clustering d’ensemble, sources d’inspiration et

offrant des points de comparaison ainsi qu’une possibilité d’intégration. Le choix des contraintes

à générer pour atteindre l’objectif nécessite l’exploration de l’apprentissage actif, afin de produire

des heuristiques non frugales. Enfin, obtenir un consensus peut ne pas être l’objectif escompté,

si l’on cherche à obtenir de la diversité dans les productions d’hypothèses comme dans le cas de

l’alternative clustering. Ainsi, les heuristiques de génération de contraintes peuvent être conçues

pour tendre vers cet objectif.

Organisation de la thèse.

Dans le but de présenter de la manière la plus complète ces approches, un panorama de

la classification non supervisée et des techniques fondamentales utilisées pour le traitement de

données classiques (mono-représentées et mono-sources) sera dressé (Chapitre 1). Dans la suite

22 SOMMAIRE

sont présentées les différentes contributions apportées au clustering multi-vues (Chapitre 2),

au clustering semi-supervisé (Chapitre 3) et à la collaboration entre algorithmes de clustering

(Chapitre 4) pour des objectifs de recherche de consensus, dans le contexte de la combinaison

de modèles adaptés aux données mono-vue/mono-source et le contexte multi-vues, ou de

recherche de clusterings alternatifs de données mono-vue/mono-source. Ces contributions sont

introduites à chaque fois par le contexte scientifique et l’analyse de l’état de l’art répondant à la

problématique posée, puis sont discutées en présentant les perspectives d’évolution. Pour finir,

la conclusion clôturera le mémoire par une synthèse de l’ensemble des travaux réalisés.

Ce manuscrit de thèse présente l’ensemble des contributions apportées et liées au clustering

dans un contexte de multiplicité de données. Comme présenté précédemment, cette multiplicité

peut concerner :

– la multiplicité des représentations des individus ou des informations relationnelles entre

ceux-ci ;

– la multiplicité des sources d’informations et la nature de ces informations ;

– la multiplicité des traitements possibles pour produire des résultats de clusterings alternatifs

et intéressants.

Le manuscrit est composé, hormis la précédente introduction, de quatre chapitres dont les

lignes directrices sont esquissées ci-après.

Chapitre 1 : Classification non supervisée.

Le chapitre 1 présente les algorithmes classiques de classification non supervisée. Celles-ci

s’adressent aux données mono-vue et mono-source. Loin de dresser un état de l’art exhaustif

de ces approches, le panorama proposé constitue un socle adapté pour la compréhension des

différents algorithmes des prochains chapitres, ainsi que celle des contributions proposées. Les

principales familles d’approches sont présentées, ainsi que les principaux problèmes associés à

l’utilisation de celles-ci et ceux liés au clustering en général.

Chapitre 2 : Classification non supervisée centralisée de données multi-vues.

Le chapitre 2 présente l’élaboration d’une approche de clustering multi-vues dont le but est

de produire une unique partition résultant du traitement d’un ensemble d’individus décrits par

plusieurs représentations ou plusieurs tableaux relationnels, répondant ainsi au premier problème

sur la multiplicité des données. Cette contribution se fonde sur un algorithme classique

présenté dans l’état de l’art: les K-moyennes floues [Bezdek, 1981], et sur un principe régissant

le développement des approches de l’état de l’art : la minimisation d’un désaccord entre les

clusterings naturels des différentes vues.

Chapitre 3 : Classification non supervisée et intégration de connaissances

externes.

Le chapitre 3 présente deux approches de clustering semi-supervisées. L’objectif est d’améliorer

un algorithme de clustering en incorporant des connaissances issues de sources externes,

et spécifiant, pour certaines paires d’individus, la relation d’appartenance ou non de ces individus

à un même groupe. Les approches proposées permettent l’amélioration de n’importe quel

algorithme de clustering, ce qui les rend plus flexibles. Ainsi, les approches proposées peuvent encapsuler

les différents algorithmes présentés dans l’état de l’art sur le clustering. Elles se fondent

sur le principe de réduction de dimensions contrôlé dans le but d’être en adéquation avec les

connaissances externes. Celles-ci se différencient selon la méthode de résolution employée. La

première est basée sur un principe de boosting adaptatif, technique très efficace d’amélioration

SOMMAIRE 23

de performance dans un cadre d’apprentissage supervisé, et porté ici dans le cadre du clustering

semi-supervisé. La seconde est basée sur une méthode d’optimisation numérique offrant des

garanties de convergence numérique vers une solution que l’on peut caractériser.

Chapitre 4 : Classification non supervisée et collaboration.

Le chapitre 4 présente un algorithme flexible et paramétré permettant d’attaquer à la fois les

problématiques de multiplicité des représentations des individus, et en même temps d’offrir une

multiplicité de clusterings alternatifs à partir d’individus décrits par de multiples représentations

ou non. L’algorithme proposé permet de s’abstraire des algorithmes de clustering et permet également

la collaboration entre ces algorithmes. Cette collaboration permet d’atteindre les objectifs

de (1) recherche de consensus, dans le contexte de la combinaison de modèles adaptés aux données

mono-vue et mono-source et le contexte multi-vues, ou de (2) recherche d’alternatives de

clustering pour données mono-vue et mono-source. Elle est fondée sur une des approches développées

précédemment pour le clustering semi-supervisé, couplée à un ensemble d’heuristiques

caractérisant l’objectif recherché.

Conclusion.

Pour finir, la conclusion clôturera le mémoire par une synthèse de l’ensemble des travaux

réalisés et permettra de dresser les perspectives à court et moyen terme du développement des

approches proposées.

 

Classification non supervisée 1

Sommaire

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2 Approches hiérarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2.1 DIANA : DIvisive ANAlysis . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.2.2 AGNES : AGglomerative NESted clustering . . . . . . . . . . . . . . . . . 28

1.3 Approches partitives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.3.1 Approches basées sur les prototypes . . . . . . . . . . . . . . . . . . . . 30

1.3.1.1 KM : les K-moyennes . . . . . . . . . . . . . . . . . . . . . . 30

1.3.1.2 SC : clustering spectral . . . . . . . . . . . . . . . . . . . . . 32

1.3.2 Approches basées sur la densité . . . . . . . . . . . . . . . . . . . . . . 34

1.3.2.1 DBSCAN : clustering basé sur la densité . . . . . . . . . . . . 34

1.3.2.2 SOM : les cartes auto-organisatrices . . . . . . . . . . . . . . 35

1.4 Approches floues et probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 37

1.4.1 FKM : les K-moyennes floues . . . . . . . . . . . . . . . . . . . . . . . 37

1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation 39

1.5 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.5.1 Les liens entre familles d’algorithmes de clustering . . . . . . . . . . . . 41

1.5.2 Le problème du nombre de groupes . . . . . . . . . . . . . . . . . . . . 42

1.5.3 Le problème de l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 43

1.5.3.1 Mesures basées sur l’énumération . . . . . . . . . . . . . . . 44

1.5.3.2 Mesures statistiques basées sur l’entropie. . . . . . . . . . . . 45

1.5.4 Le choix de la proximité . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.5.5 Le choix de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . 47

26 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

1.1 Introduction

Dans ce chapitre introductif sont présentées les grandes familles d’algorithmes de clustering.

Il existe de multiples critères pour les différencier et les présenter en une typologie cohérente. La

présentation de ces approches de classification suit une trame classique selon le type de résultat

produit. Les différents algorithmes classiques seront organisés selon les approches :

hiérarchiques produisant un ensemble de partitions imbriquées appelé dendrogramme;

partitives, dont le résultat est une partition en un nombre de groupes fixé, donné, ou

découvert par l’algorithme;

génératives ou floues, permettant d’obtenir une partition floue des individus, ou d’attribuer

des valeurs de probabilités d’appartenance des individus à chaque groupe.

Il sera tenu compte également de la philosophie de l’approche et spécifié pour chacune, si

elle est de type :

discriminative, c’est à dire que l’approche vise à déterminer géométriquement des frontières

de décision en séparant les individus dans un espace donné. Elles se présentent

sous la forme d’un programme d’optimisation d’un critère objectif, éventuellement avec

contraintes. La solution est ainsi caractérisée par l’optimum global de ce critère objectif,

qui est en général approché par un algorithme directement dérivé du critère ;

générative, lorsqu’elle est basée sur un modèle probabiliste. L’approche permet ainsi de

définir à la fois la solution optimale après émission d’une hypothèse sur la nature des

lois censées régir l’ensemble d’individus, et en même temps propose une explication sur la

façon dont a été généré cet ensemble. Cette dernière information offre l’intérêt notamment

de pouvoir re-générer automatiquement un nouvel ensemble d’individus, semblable à celui

d’origine;

– purement algorithmique, si elle n’est fondée sur aucun critère objectif (ou celui-ci n’est

pas connu), mais les groupes sont obtenus par pure recherche heuristique durant l’application

de l’algorithme.

Avant d’analyser en détail ces approches et les liens existant entre elles, il convient de rappeler

l’hypothèse centrale qui régit chacune d’entre elles ainsi que leur utilisation : l’hypothèse

de l’existence de groupes. Cette hypothèse établit que des échantillons d’individus très proches

entre eux doivent appartenir au même groupe et partager alors la même étiquette. De manière

équivalente la frontière de décision entre deux groupes doit correspondre à une zone de faible

densité i.e. zone dans laquelle peu d’individus sont présents. En prendre connaissance est important,

étant donné que l’application d’un algorithme de clustering n’a de sens que si l’on peut

confirmer cette hypothèse, par exemple, en s’assurant que les individus ne sont pas distribuées

selon une loi uniforme. Ce dernier cas peut relever d’un problème de représentation des individus

ou de choix de la mesure de proximité, quoiqu’il en soit, d’un problème intervenant en

amont de la procédure de découverte des groupes.

Au delà de l’utilité d’appliquer un algorithme de clustering et du coeur constituant celuici,

figure le problème de l’évaluation. Pouvoir déterminer l’apport d’un algorithme de clustering

particulier est un problème en soi. Un cadre favorable d’évaluation se présente lorsque l’étiquette

des individus est connue i.e. lorsque l’on a à disposition des groupes cibles appelés classes, à

retrouver. L’évaluation est alors dans ce contexte une vérification de la ressemblance entre les

groupes produits et les classes données. Le problème de l’évaluation sera adressé plus en détail

en fin de chapitre.

L’objectif des approches de clustering est de produire une structure permettant d’organiser

les données. Celle-ci peut être un dendrogramme, ou une partition de taille fixée éventuellement

représentée par un ensemble d’éléments représentatifs appelés prototypes. La forme et la

1.2. APPROCHES HIÉRARCHIQUES 27

manière d’obtenir une telle structure sera explicitée en temps voulu lors de la présentation des

différentes familles d’algorithmes. L’ensemble des méthodes classiques présentées sont formalisées

selon la notation suivante :

NOTATION

n : le nombre d’individus à regrouper.

np : le nombre d’attributs décrivant les individus.

nk : le nombre de groupes à identifier.

nc : le nombre de classes associé aux données.

X = fx1; :::; xng : l’ensemble des n individus à partitionner.

X 2 Rn_np : la représentation matricielle de X.

xi 2 Rnp : la représentation vectorielle de l’individu xi.

C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.

c = fc1; :::; cnkg : l’ensemble des nk prototypes des groupes.

C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.

D = fD0; :::;Dng : la structure de dendrogramme associée aux données.

d(xi; xj) : la distance au sens général entre deux individus xi et xj .

jjxi 􀀀 xj jjp : la distance de Minkowski entre deux individus xi et xj .

1.2 Approches hiérarchiques

Les approches de clustering hiérarchiques sont des approches non paramétriques et purement

algorithmiques qui proposent de construire une structure hiérarchique appelée dendrogramme.

Il s’agit d’un arbre dans lequel chaque niveau correspond à une partition de l’ensemble des

individus. Chaque noeud, appelé aussi amas, est une partie de la partition correspondante (un

groupe) et l’ensemble de ses fils constitue une partition de ce noeud. La figure 1.1 illustre cette

structure. Les approches permettant de construire un dendrogramme de ce type se décomposent

en deux familles :

– les approches agglomératives qui construisent le dendrogramme par la base, en regroupant

à chaque étape les amas d’individus les plus similaires ;

– les approches divisives qui construisent le dendrogramme par le haut, en partitionnant à

chaque étape un amas en sous amas.

1.2.1 DIANA : DIvisive ANAlysis

Algorithme

L’approche DIANA pour DIvisive ANAlysis clustering suggère une construction descendante du

dendrogramme. Partant d’un amas A non singleton et de plus grand diamètre (contenant initialement

l’ensemble des individus xi 2 X), l’algorithme procède par division successive et itérative

en deux parties A0 et A0 équilibrées. Le diamètre d’un amas A est défini par :

Diam(A) = max

xi2A;xj2A

d(xi; xj) (1.1)

Partant de A0 = A et A0 = ;, l’approche consiste alors à transférer un ensemble d’individus

de A0 vers A0 de telle sorte à conserver un équilibre entre ces deux ensembles. On choisit de

28 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

transférer à chaque étape l’individu xi 2 X qui maximise

D(xi;A0 n fxig) =

1

jA0j 􀀀 1

X

xj2A0

xj 6=xi

d(xi; xj) (1.2)

correspondant à une distance moyenne de l’individu xi aux individus de A0 n fxig. Lorsque la

quantité _(A0;A0; xi) = D(xi;A0 nfxig)􀀀D(xi;A0) devient négative, l’individu xi n’est alors pas

transféré et le processus de division de A s’arrête. Une nouvelle subdivision peut alors recommencer

en choisissant à nouveau l’amas de plus grand diamètre entre A0 et A0. L’algorithme est

présenté en détail dans l’algorithme 1.

Algorithme 1 DIANA

ENTRÉES : X, d(:; :)

SORTIES : D

1 : A = X, D0 = fAg et i = 1

2 : A0 = arg max

A2Di􀀀1

Diam(A), A0 = ; et Di = Di􀀀1 n A0

3 : choisir x_i

= arg max

xi2A0

D(xi;A0 n fxig)

4 : si _(A0;A0; x_i

) _ 0 alors A0 = A0 n fx_i

g, A0 = A0 [ fx_i

g et aller en 3

5 : si i < jX j alors i = i + 1, Di = Di [ A0 [ A et aller en 2

L’un des problèmes majeurs de l’approche DIANA est sa sensibilité aux outliers, qui sont des

individus isolés dont on peut considérer qu’ils proviennent d’une erreur de mesure ou d’un comportement

anormal selon le cadre applicatif. En effet ceux-ci biaisent la définition du diamètre

d’un amas et perturbe le processus de subdivision. Les approches divisives restent moins présentes

et utilisées que les approches agglomératives pour des raisons de complexité, le problème

de trouver une bipartition optimale pour tout critère étant lui même NP-difficile.

1.2.2 AGNES : AGglomerative NESted clustering

Algorithme

Les méthodes agglomératives de type AGNES pour AGglomerative NESted clustering consistent

à partir d’autant d’amas singletons que d’individus, puis à fusionner dans un processus itératif les

amas les moins dissimilaires, ou de manière équivalente, les plus similaires (cf. algorithme 2). La

dissimilarité inter-amas peut être calculée de multiples façons, et le choix de la mesure influence

grandement le résultat de l’algorithme agglomératif. Les différentes mesures mènent naturellement

à différentes déclinaisons de la méthode de construction des partitions imbriquées. Parmi

elles, nous trouvons :

SLINK ou le simple lien qui consiste à utiliser la mesure :

D(Ai;Aj) = min

xi2Ai;xj2Aj

d(xi; xj)

La distance entre deux amas est alors la distance la plus courte entre individus de ces

amas ;

ALINK ou la méthode en lien moyen utilisant la mesure de dissimilarité inter-amas suivante :

D(Ai;Aj) = d(ci; cj)

1.2. APPROCHES HIÉRARCHIQUES 29

ci =

1

jAij

X

xi2Ai

xi et cj =

1

jAj j

X

xj2Aj

xj sont les moyennes respectives des amas Ai et

Aj . La distance entre deux amas correspond dans ce cas à la distance entre les barycentres

respectifs de ceux-ci ;

CLINK ou la méthode en lien complet qui est basée sur la définition de la mesure suivante :

D(Ai;Aj) = max

xi2Ai;xj2Aj

d(xi; xj)

La distance entre deux amas devient la distance la plus grande entre individus présents

dans ces amas.

1

2

3

101

103

102

52

51

53

0 1 2 3 4 5

Height

1

2

3

101

103

102

52

51

53

0 1 2 3 4 5

Height

1

2

3

101

103

102

52

51

53

0 1 2 3 4 5

Height

FIGURE 1.1 — Dendrogramme obtenu après application d’un clustering hiérarchique. Les deux dernières

images correspondent à une coupure du dendrogramme afin d’obtenir une partition “à plat” du nombre

de groupes désiré (nk = 3 et nk = 5 respectivement).

FIGURE 1.2 — . Les différents résultats issus de l’application d’un algorithme de clustering hiérarchique

agglomératif selon différentes mesures de dissimilarité inter-amas. Dans l’ordre, le clustering SLINK, le

clustering ALINK et le clustering CLINK.

D’autres approches divisives et agglomératives ont été explorées et sont présentes dans la littérature

[Kaufman and Rousseeuw, 1990]. Elles ne seront pas présentées ici car elle ne servent

pas de socle pour les algorithmes développés par la suite pour les problématiques spécifiques.

Ces méthodes sont utiles lorsque l’on souhaite une analyse de l’ensemble d’individus à plusieurs

niveaux de granularité, au travers de plusieurs partitions imbriquées de 1 à n groupes. Elles

30 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

Algorithme 2 AGNES

ENTRÉES : X, d(:; :)

SORTIES : D

1 : 8xi 2 X;Ai = fxig, D0 = fAig1_i_jXj et i0 = 1

2 : (A_1

;A_2

) = arg min

(A1;A2)2D2

i0􀀀1

D(A1;A2)

3 : Di0 = Di0􀀀1 n fA_1

g [ fA_2

g et Di0 = Di0􀀀1 [ fA_1

[ A_2

g

4 : si i0 < jX j alors i0 = i0 + 1 et aller en 2

peuvent être implémentées par des algorithmes de complexité acceptable à l’aide de structures

de données adéquats et peuvent alors être adaptées à de grandes bases. Néanmoins, elles sont

limitées par le fait que lorsque deux amas deviennent agglomérés, une réaffectation des individus

présents dans ces amas n’est plus possible. Ainsi, le meilleur clustering des individus en nk

amas ne peut espérer être réellement atteint, et on préférera utiliser des méthodes par partitionnement

en nk groupes, plus adaptées.

1.3 Approches partitives

Cette sous section détaille les algorithmes de partitionnement selon deux familles d’approches

:

– les approches basées sur les prototypes qui consistent à définir un ensemble de centres ou

moyennes de départ qui caractériseront chacun un groupe d’individus ;

– les approches basées sur le voisinage qui émettent des hypothèses topologiques sur la

distribution de l’ensemble d’individus X.

Ces approches sont désormais plus courantes dans les communautés dédiées au développement

de nouveaux algorithmes de clustering. Dans la suite sont présentés des exemples de telles

familles ainsi que les liens que l’on peut trouver entre elles.

1.3.1 Approches basées sur les prototypes

1.3.1.1 KM : les K-moyennes

La méthode discriminative des K-moyennes [MacQueen, 1967], notée KM, est l’approche

la plus connue, utilisée et étendue dans les différentes communautés dédiées au clustering. Le

principe est «naturel», étant données la distribution des individus de X dans l’espace de description

et un nombre nk de groupes fixé, l’objectif est de minimiser la dispersion des individus

relativement à un ensemble de prototypes représentatifs de ces groupes.

Objectif

Les individus xi 2 X doivent nécessairement être représentés par un vecteur de Rp, et l’ensemble

X est alors décrit par une matrice X 2 Rn_p. Du point de vue du modèle, KM est basé

sur la minimisation d’une erreur quadratique relativement à ces prototypes qui se formalise par:

min

c;C

QKM(c;C) = min

c;C

Xnk

k=1

X

xi2Ck

jjxi 􀀀 ckjj22

ck est le prototype du groupe Ck.

1.3. APPROCHES PARTITIVES 31

Algorithme

Du point de vue de l’algorithme (cf. algorithme 3), il s’agit d’un processus itératif qui alterne,

à chaque étape:

1. une phase d’affectation des individus à leur groupe le plus proche :

C_

k = fxi 2 X j ck = arg min

c2fc1;:::;cnk

g

jjxi 􀀀 cjj22

g (1.3)

2. une phase de mise à jour des centres de groupe :

c_

k = arg min

c2Rp

X

xi2Ck

jjxi 􀀀 cjj22

(1.4)

=

1

jCkj

X

xi2Ck

xi

Le nouveau prototype est alors le barycentre du sous ensemble des individus xi 2 Ck.

La figure 1.3 retrace le principe de l’algorithme KM. À la première itération, 3 prototypes

sont définis aléatoirement et les première affectations (représentés par les colorations) sont

réalisées relativement à ces prototypes. À l’itération 2 on observe le déplacement des prototypes

par la traînée rouge et une réaffectation correspondante à la nouvelle position de ceux-ci. La

dernière illustration montre l’algorithme stabilisé qui parvient à trouver 3 groupes convexes et

homogènes.

FIGURE 1.3 — Illustration des étapes de KM à partir des itérations 1, 2, et 8 correspondant à la stabilisation

(nk = 3).

Algorithme 3 KM

ENTRÉES : X, nk

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg

2 : Mise à jour des groupes Ck 8k 2 [1::nk] en utilisant (1.3)

3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (1.4)

4 : Si la valeur de QKM change alors aller en 2

On notera qu’il s’agit là d’un problème d’optimisation non convexe, c’est à dire que l’on

ne peut avoir de garantie d’atteindre l’optimum global du critère. À chaque étape, la mise à

jour des groupes est optimale selon la définition actuelle des centres. Les nouveaux centres eux

32 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

remplissent les conditions d’optimalité du premier ordre. Ainsi l’optimalité locale ou globale est

complètement déterminée par l’initialisation des centres. En général, KM est exécuté plusieurs

fois avec des initialisations différentes et le meilleur résultat est retenu.

Parmi les avantages, on notera la complexité linéaire de l’algorithme en le nombre d’individus,

la simplicité d’implémentation et l’interprétation naturelle du modèle et de l’algorithme

associé. La convergence théorique est également prouvée, par le fait que le critère à minimiser

est positif, admet l’existence d’un optimum, puis que sa valeur décroît à chaque étape de

l’algorithme.

Parmi les inconvénients, on peut noter que KM est limité par la représentation des individus.

Chaque individu doit ainsi être décrit par un vecteur numérique de dimensionnalité p. Ainsi il

n’est pas directement applicable si les données sont représentées directement par une matrice de

proximité de type similarité ou dissimilarité. Un autre désavantage concerne le fait que KM ne

peut produire que des groupes convexes, et de diamètre homogène.

1.3.1.2 SC : clustering spectral

Le clustering spectral (SC) [Luxburg, 2007] est une autre approche discriminative de partitionnement,

qui aurait pu être traitée parmi les approches basées sur le voisinage, car elle permet

de prendre en compte la topologie naturelle des données. En réalité, il s’agit d’un KM appliqué

à l’ensemble des individus projetés dans un sous espace particulier. Cet espace de projection

de dimensions nk est construit de telle sorte que des paquets d’individus proches se forment

naturellement dans chaque dimension. Le critère objectif correspond donc à une variante de

KM [Dhillon et al., 2005] qui ne sera pas détaillée ici.

Algorithme

L’algorithme 4 repose sur une représentation des données sous formes d’un graphe de similarité

G traduisant la notion de proximité entre individus. Il existe plusieurs façons de construire

un tel graphe à partir des données :

– dans le graphe de voisinage _, une arête existe entre deux individus xi 2 X et xj 2 X si

d(xi; xj) _ _ ;

– dans le graphe des k plus proches voisins kNN, une arête existe entre les individus xi 2 X

et xj 2 X si xj 2 kNN(xi) i.e. xj est parmi les k individus les plus proches de xi ;

– le graphe complet, une arête existe pour toutes les paires d’individus.

Les différentes arêtes du graphe sont munies d’un poids correspondant à la similarité entre

les deux individus concernés par l’arête, similarité qui peut être calculée de multiples manières

et le choix en est laissé selon le cadre applicatif.

Le sous-espace dans lequel projeter les données s’obtient en calculant par diagonalisation les

vecteurs propres du laplacien du graphe choisi. Le résultat utilisé étant que les vecteurs propres

du laplacien caractérisent des composantes connexes du graphe lorsque leurs valeurs propres

associées sont nulles, ou bien des zones de fortes densité (mais non déconnectées du graphe)

lorsqu’elles sont petites. Le laplacien L du graphe est défini à partir de la matrice d’adjacence W

du graphe et de la matrice diagonale D des degrés de ses sommets (les individus):

L = D 􀀀W

avec W la matrice d’adjacence définit par :

Wij =

_

1 s’il existe une arête entre xi et xj

0 s’il n’existe pas d’arête entre xi et xj

1.3. APPROCHES PARTITIVES 33

et D la matrice diagonale des degrés

D = diag(d1; :::; dn) ; di =

X

xj2X

wij

La valeur Wij _ 0 peut également refléter la similarité entre xi et xj plutôt que l’existence

d’une arête.

Une étape clé avant le calcul des vecteurs propres et la diagonalisation est la normalisation

du laplacien. Différentes approches ont été développées selon le type de normalisation proposé

[Shi and Malik, 2000] ; [Ng et al., 2001]. Ainsi les normalisations possibles sont les suivantes :

Lsym = D􀀀1

2LD􀀀1

2 = I 􀀀 D􀀀1

2WD􀀀1

2 (1.5)

Lrw = D􀀀1L = I 􀀀 D􀀀1W (1.6)

Le choix de la normalisation a une influence sur les vecteurs propres du laplacien, et ceux-ci

correspondent alors à des solutions de problèmes relachés de partitionnement de graphes selon

différentes heuristiques. En particulier, soit :

– le volume du groupe Ck, noté vol(Ck) défini par :

vol(Ck) =

X

xi2Ck

W(Ck;X n Ck)

W(Ck;X n Ck) correspond au nombre d’arêtes, ou à la somme des poids des arêtes

entre les individus xi 2 Ck et xj 2 X n Ck :

W(Ck;Cl) =

X

xi2Ck

xj2Cl

Wij

cut une mesure quantifiant la séparabilité des groupes C1, . . ., Ck et défini par :

cut(C1; : : : ;Cnk ) =

1

2

Xnk

k=1

W(Ck;X n Ck)

Minimiser ce critère selon C = fC1; : : : ;Cnkg revient à déterminer le nombre d’arêtes

minimal (ou la somme minimale des poids des arêtes) à ôter au graphe afin de déconnecter

les nk groupes.

Les nk premiers vecteurs propres des laplaciens normalisés Lsym et Lrw associés aux plus

petites valeurs propres correspondent à une représentation des individus dans laquelle l’application

des K-moyennes permet de résoudre une relaxation du problème de minimisation de la

coupure normalisée suivante :

min

C

QNCUT = min

C

Xnk

k=1

cut(Ck;X n Ck)

vol(Ck)

(1.7)

Le clustering spectral peut donc être vu comme un K-moyennes où les individus sont projetés

en paquets d’individus similaires relativement au graphe de similarité construit à partir des données.

Si l’on est capable de construire un graphe contenant nk composantes connexes alors les

individus sont projetés en nk paquets bien séparés car définis uniquement sur une des dimensions

de la matrice correspondant aux vecteurs propres du laplacien normalisé. Le graphe étant

la structure la mieux adaptée pour capturer la topologie des données. Elle permet de retrouver

naturellement les zones de fortes densités correspondant à un nombre important d’individus

proches. Cette notion de densité est centrale dans le développement des approches basées sur le

voisinage qui seront présentées par la suite.

34 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

Algorithme 4 SC

ENTRÉES : X, nk

SORTIES : C = fC1; :::;Cnkg

1 : construire G représentant X. Déterminer W et D

2 : construire Ln selon (1.5) ou (1.6)

3 : construire P dont les colonnes sont les nk premiers vecteurs propres

4 : si Ln = Lsym alors re-normaliser les lignes de P (somme à 1)

5 : C = clustering des lignes de P par KM

1.3.2 Approches basées sur la densité

1.3.2.1 DBSCAN : clustering basé sur la densité

Un des premiers algorithmes dont l’objectif est explicitement de capturer les zones de fortes

densités, définissant ainsi un groupe, est DBSCAN [Ester et al., 1996]. Il s’agit d’une approche

exclusivement algorithmique qui se fonde sur une modélisation particulière du concept de zone

dense, et qui parcourt l’ensemble des individus afin de déterminer si ceux-ci appartiennent ou

non à une telle zone.

Algorithme

DBSCAN nécessite pour être applicable deux paramètres : _ et MinP ts. Ces paramètres globaux

déterminent la manière de trouver les groupes en définissant une topologie, puis en proposant

une approche constructive basée sur celle-ci. On distingue à partir de ces paramètres deux

familles d’individus, des individus coeur, et des individus frontière. Un individu xi est qualifié de

coeur si il contient dans son voisinage de longueur _ au moins MinP ts points, sinon il s’agit d’un

individu frontière. Le voisinage d’un individu xi est défini par :

N_(xi) = fxj 2 Xjd(xi; xj) _ _g

alors xi est coeur si jN_(xi)j _ MinP ts et frontière sinon. L’algorithme DBSCAN (cf. algorithme

5) procède alors par un parcours de l’ensemble des individus X jusqu’à rencontrer un individu

coeur xi, dès lors il devient générateur d’un groupe. Les voisins de xi n’appartenant à aucun

groupe sont alors affectés au même groupe que xi. Les nouveaux individus ainsi reaffectés, si ils

sont coeurs, propagent la génération du groupe selon le même principe.

Enfin, lorsque le groupe en construction ne peut plus s’étendre, il est alors complètement

défini in extenso par l’ensemble des individus qui auront été parcourus durant ce processus

récursif. Cette opération est répétée pour les individus restant de telle sorte à constituer un

ensemble de groupes denses. Les individus qui sont de type frontière et qui ne sont pas dans le

voisinage d’un individu de type coeur sont considérés comme du bruit, des individus mal définis

ou des outliers (individus atypiques isolés dans l’espace de représentation). Nous désignons

l’ensemble de tels individus par R.

Soient les définitions suivantes :

Atteignabilité directe : xj est directement atteignable en densité à partir de xi si xj 2 N_(xi)

et xi est un individu coeur ;

Atteignabilité : xj est atteignable en densité à partir de xi si xj est directement atteignable

en densité à partir de xi ou si 9xk 2 X et xk est un individu coeur tel que xj est directement

atteignable en densité à partir de xk et xk est atteignable en densité à partir de xi. On

notera alors

A(xi) = fxj 2 Xjxj est atteignable par xig

1.3. APPROCHES PARTITIVES 35

FIGURE 1.4 — Illustration des étapes de DBSCAN pour un voisinage de MinP ts = 4 individus et _ =

rayon du cercle fixés.

Chaque groupe est alors généré par un individu coeur xi, et contient l’ensemble des individus

atteignables en densité à partir de xi.

Algorithme 5 DBSCAN

ENTRÉES : X, MinP ts, _

SORTIES : C = fC1; :::;Cnkg, R

1 : i = 1, k = 1 et R = ;

2 : Ck = ;

3 : Tant que jN_(xi)j < MinP ts et xi =2

S

1_g_k Cg Faire i++, R = R [ fxig

4 : Ck = Ck [ fxig [ A(xi)

5 : Si 9xj 2 X tel que xj =2

S

1_g_k Cg [ R alors k++ et aller en 2.

DBSCAN présente de nombreux avantages, comme la détection automatique du nombre nk

de groupes et la détection des éléments atypiques ou outliers. L’approche permet de plus de capturer

des groupes de formes variées et impossibles à retrouver avec des algorithmes de partitionnement

classiques tels que KM. Mais ces avantages ont un prix, celui du choix des paramètres _

et MinP ts qui sont difficiles à estimer a priori. Cependant les auteurs ont proposé une approche

heuristique pour déterminer une bonne valeur de _ à partir de MinP ts fixé.

1.3.2.2 SOM : les cartes auto-organisatrices

Les cartes auto-organisatrices [Kohonen, 1988] constituent une famille d’algorithmes d’apprentissage

réalisant un clustering des individus en tenant compte de la topologie présente dans

les données. Le principe est de faire évoluer un ensemble de prototypes (appelés aussi neurones)

liés entre eux au moyen d’un graphe G qui représente une hypothèse topologique (souvent une

grille) sur ces derniers. Le nombre de prototypes, prédéfini, doit être plus grand que le nombre

de groupes supposé, ainsi le surnombre de prototypes permet de capturer la forme des groupes.

Objectif

36 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

L’objectif visé est que l’ensemble des prototypes approxime la distribution naturelle des individus

dans l’espace. La stabilité de la carte topologique est obtenue comme l’optimum du critère

objectif suivant:

min

c

QSOM(c) = min

c

Xnk

k=1

X

xi2X

K(ck; f_(xi))jjxi 􀀀 ckjj22

ck 2 Rp est le k-ième prototype. L’idée est alors proche, dans l’esprit, de KM où l’on va

chercher à déplacer les prototypes, de sorte à minimiser l’inertie des individus autour de ceuxci.

L’inertie est pondérée par une fonction K quantifiant, pour un terme de l’inertie donné (en

fixant k et i), une similarité entre le prototype concerné ck et le prototype le plus représentatif

de l’individu concerné f_(xi).

Algorithme

L’algorithme consiste à trouver un moyen de déterminer automatiquement une valeur optimale

de similarité K(ck; f_(xi)) et d’en déduire naturellement les mises à jours optimales des

prototypes, entraînant leur déplacement. Pour cela, le prototype f_(xi) est déterminé par :

f_(xi) = arg min

c2fc1;:::;cnk

g

jjxi 􀀀 cjj22

(1.8)

La similarité K est définie formellement par :

K(ci; cj) =

1

_(t)

_ e

􀀀

jjci􀀀cj jj1

_2(t)

La norme L1 associée à l’espace G entre ci et cj correspondant à une distance géodésique sur

cet espace dans lequel sont définis uniquement les prototypes. Plus le prototype cj est proche

du prototype ci, plus la valeur de K(ci; cj) sera élevée. Ainsi, dans le critère on cherche davantage

à rapprocher un prototype ck d’un individu xi si ck = f_(xi), la similarité correspondante

K(ck; f_(xi)) étant maximale : K(ck; f_(xi)) = 1

_(t) .

Pour des raisons de convergence, l’expression de la mesure de similarité K évolue au cours

du déroulement itératif de l’algorithme, jusqu’à devenir une mesure quasi-binaire. Cette évolution

se fait par l’intermédiaire du paramètre _ dépendant de l’étape d’itération t. Ce paramètre

est mis à jour de façon heuristique par :

_(t) = _i(

_f

_i

)

t

tmax

_i et _f sont des bornes définies a priori.

Enfin, les prototypes sont mis à jour par une recherche linéaire (pondérée par K(ck; f_(xi)),

qui lui n’est pas linéaire en ck) :

c_

k = ck 􀀀 _(t)K(ck; f_(xi))(xi 􀀀 ck) (1.9)

_(t) est un pas d’optimisation variable qui diminue avec le temps pour garantir la convergence.

L’algorithme SOM existe sous différentes formes. Dans l’approche initiale, la carte est mise

à jour pour chaque présentation d’un individu xi par la règle (1.9) après avoir déterminé son

prototype représentant par (1.8). L’algorithme 6 relate une version dite batch pour laquelle la

carte est mise à jour de manière itérative une fois que tous les individus lui sont présentés,

davantage dans l’esprit de KM.

1.4. APPROCHES FLOUES ET PROBABILISTES 37

Algorithme 6 batch SOM

ENTRÉES : X, nk, _i, _f , G

SORTIES : C = fC1; :::;Cnkg

1 : t = 1 et _(t) = _i

2 : initialiser aléatoirement les nk prototypes fc1; :::; cnkg

3 : mise à jour de f_

xi

8xi 2 X selon (1.8)

4 : mise à jour des prototypes ck 8k 2 [1::nk] selon (1.9)

5 : si _(t) > _f alors t = t + 1 et aller en 3.

6 : Ck = fxi 2 Xjf_(xi) = ckg 8k 2 [1::nk]

1.4 Approches floues et probabilistes

Il peut arriver, au cours du processus itératif ou à la fin, qu’un individu soit difficile à classer

car proche simultanément de plusieurs groupes. La prise de décision faite par les approches par

partitionnement présentées précédemment est d’affecter l’individu au groupe le plus proche en

oubliant les autres. Une vision plus naturelle est alors d’adoucir cette décision et de maintenir

l’incertitude sur l’appartenance d’un individu aux groupes le plus longtemps possible. Cela

peut permettre d’éviter tant que possible de s’enraciner trop rapidement vers une solution qui

s’avèrerait peu satisfaisante, par exemple, un optimum local dans le cas des approches discriminatives.

L’incertitude lors du clustering peut être modélisée de différentes façons, les plus

courantes consistant à utiliser la théorie des ensembles flous ou bien la théorie des probabilités.

Dans le cadre des ensembles flous [Zadeh, 1965], on considère en général que chaque individu

appartient simultanément à tous les groupes mais avec un certain degré d’appartenance.

En ce qui concerne les approches probabilistes [Dempster et al., 1977], nous considérons qu’un

individus appartient à un seul groupe, qui correspond au groupe le plus probable, mais une probabilité

non nulle existe concernant l’évènement d’appartenance à chacun des autres groupes.

1.4.1 FKM : les K-moyennes floues

L’approche discriminative des K-moyennes floues, notée FKM, développée par [Bezdek, 1981]

est une généralisation de K-moyennes se basant sur des éléments de la théorie des ensemble

flous.

Objectif

Le principe est toujours de minimiser la dispersion des individus relativement aux prototypes,

mais pondérée cette fois par le degré d’appartenance de l’individu au groupe. Du point de vue

du critère objectif, on présente les K-moyennes floues de la manière suivante comme la minimisation

du critère de l’erreur quadratique semblable à KM, mais évaluée pour chaque individu

relativement à l’ensemble des prototypes :

min

c;u

QFKM(c; u) = min

c;u

Xnk

k=1

X

xi2X

u_

ikjjxi 􀀀 ckjj22

s:t:

Pnk

k=1 uik = 1 8xi 2 X

uik _ 0 8xi 2 X; 8k 2 [1::nk]

(1.10)

_ _ 1 est un paramètre fixé dans l’objectif et ck est le prototype du groupe Ck. u = fuikg est

l’ensemble des degrés d’appartenance des individus aux groupes. En particulier, uik indique le

degré d’appartenance de l’individu xi au groupe Ck.

38 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

Intuitivement, plus un individu à un moment donné sera proche d’un prototype relativement

aux autres, plus son degré d’appartenance à celui-ci sera élevé. Au final, le résultat n’est

pas une décision sur l’appartenance d’un individu à un groupe particulier, mais un ensemble

d’indicateurs permettant de mesurer l’incertitude sur le groupe auquel appartient cet individu.

La solution du problème d’optimisation, l’optimum, correspond à un ensemble de prototypes les

plus représentatifs des groupes ainsi que la matrice d’appartenance des individus aux groupes.

Cet optimum satisfait les conditions d’optimalité du premier ordre du Lagrangien associé au

problème d’optimisation sous contrainte. Comme le critère objectif est convexe lorsque l’une des

variables du problème d’optimisation est fixée, on peut obtenir alternativement les mises à jours

globalement optimales des degrés d’appartenance pour des centres fixés :

u_

ik =

jjxi 􀀀 ckjj2=(1􀀀_)

2

Xnk

j=1

jjxi 􀀀 cj jj2=(1􀀀_)

2

8xi 2 X; 8k 2 [1::nk] (1.11)

De la même manière, on obtient les centres globalement optimaux relativement aux degrés

d’appartenance de la manière suivante :

c_

k = arg min

c2Rp

X

xi2X

u_

ikjjxi 􀀀 cjj22

(1.12)

=

X

xi2X

u_

ikxi

X

xi2X

u_

ik

Algorithme

Du point de vue de l’algorithme (cf. Algorithme 7), à la manière de KM, il s’agit également

d’un processus itératif, semblable à la résolution d’un système d’équations (mise à jour des

centres, et mise à jour des degrés d’appartenances) par une méthode itérative de type Gauss-

Seidel, qui va alterner cette fois une phase de mise à jour des degrés d’appartenance des individus

aux classes et une phase de mise à jour des centres de classes (après une initialisation aléatoire

des centres de classes), jusqu’à une stabilisation numérique.

Algorithme 7 FKM

ENTRÉES : X, nk, _

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg

2 : Mise à jour des degrés d’appartenances uik 8xi 2 X; 8k 2 [1::nk] en utilisant (1.11)

3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (1.12)

4 : Si QFKM change alors aller en 2

5 : Ck = fxi 2 Xjui;k = max

k02[1::nk]

uik0g 8k 2 [1::nk]

Cette fois, le résultat n’est pas une partition stricte, mais une partition floue, ce qui ne nous

dit pas à quel groupe appartient un individu. Pour répondre au problème du clustering originel,

il est nécessaire d’ajouter une étape d’affectation finale (étape 5 dans l’algorithme) des individus

aux groupes, à appliquer à l’issue de l’algorithme. La procédure choisie consiste à affecter les

individus aux groupes pour lesquels ils ont le plus fort degré d’appartenance.

xi 2 Ck , k = arg max

k02[1::nk]

uik0

1.4. APPROCHES FLOUES ET PROBABILISTES 39

Cette généralisation de KM est toujours formulée comme un problème d’optimisation non

convexe selon l’ensemble des variables correspondant aux centres et aux degrés. Ainsi, aucune

garantie n’existe concernant l’optimalité globale de la solution, et il convient également dans

ce cadre de relancer plusieurs fois l’algorithme. Cependant, empiriquement, FKM est beaucoup

plus stable que son analogue strict.

1.4.2 EM : estimation d’un mélange de modèles par Espérance-Maximisation

L’autre outil des mathématiques qui permet de capturer et tenir compte d’une forme d’incertitude

sur les classements des individus au sein des groupes est la théorie des probabilités.

Dans le cadre du clustering, le modèle qui prédomine est celui des mélanges de lois. On suppose

toujours que nk groupes existent, et chaque groupe est représenté par une loi de probabilité

paramétrée. Il existe de nombreuses lois de probabilité, mais en général, la loi normale est utilisée,

car elle permet de représenter la plus grande majorité de phénomènes, et elle approxime

également nombre d’autres lois. On considère alors que l’ensemble des individus X, appelé

également échantillon dans ce contexte, suit un mélange de nk lois paramétrées f. La k-ième

loi du mélange, caractérisée par sa fonction de densité fk est paramétrée par _k ainsi qu’une

probabilité a priori _k de générer l’ensemble des individus. La tâche de clustering est alors de

chercher quelles sont les lois (les paramètres des lois) qui permettent au mieux d’expliquer la

génération de l’échantillon d’individus X. En d’autres termes, trouver les meilleurs estimateurs

des paramètres _ = f(_k; _k)gk2[1::nk].

Modèle

On associe à chaque composante du mélange (chaque loi) une valeur de probabilité _k a

priori, exprimant la probabilité que la k-ième loi soit sélectionnée pour générer chaque individu

xi, que l’on appelle aussi proportion du mélange. Soit Xi les variables aléatoires dont les xi sont

des réalisations, le mélange associé aux nk lois est alors le suivant:

f(Xi; _) =

Xnk

k=1

_kfk(xi; _k) (1.13)

et le modèle expliquant la génération de l’échantillon X sous l’hypothèse d’une distribution

identique et indépendante des variables Xi s’exprime :

f(X; _) = f(X1; :::;Xn; _) =

Yn

i=1

Xnk

k=1

_kfk(xi; _k) (1.14)

Objectif

Maintenant que le modèle est défini, on peut formaliser l’objectif du clustering associé. Celuici

consiste à chercher les paramètres des lois qui maximisent la vraisemblance et, de manière

équivalente mais plus adaptée d’un point de vue computationnel, la log-vraisemblance des données

complétées par un vecteur aléatoire Z indiquant pour chaque individu xi, le groupe auquel

il semble appartenir (Zi = k , xi 2 Ck). La log-vraisemblance L des paramètres _ s’exprime

par :

L(_;X;Z) =

X

xi2X

Xnk

k=1

zik log(_kfk(xi; _k))

zik représente la probabilité a posteriori que l’individu xi ait été généré par la k-ième composante

du mélange, selon la valeur de _ courante notée _􀀀. Le problème de maximisation de

40 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

la log-vraisemblance des paramètres relativement à l’observation des données (l’échantillon) X

complétées par le vecteur Z est alors équivalent au problème de maximisation du critère QEM

décrit par:

max

_

QEM(_;_􀀀;X; nk) = (1.15)

max

_

X

xi2X

Xnk

k=1

f(Zi = kjXi = xi;_􀀀) log(_kfk(xi; _k))

Algorithme

L’algorithme employé pour obtenir l’optimum de ce critère est EM [Dempster et al., 1977].

Cette approche est destinée à estimer les paramètres de n’importe quel modèle statistique, mais

son utilisation est ici restreinte à l’estimation des paramètres du mélange de lois. Partant d’une

initialisation des paramètres _, l’algorithme propose de maximiser la log-vraisemblance des

données complétées en alternant deux étapes qui sont :

1. le calcul de l’espérance de la variable caché Zi permettant d’obtenir une mise à jour des valeurs

de probabilités a posteriori permettant d’évaluer l’espérance de la log-vraisemblance

selon la valeur courante des paramètres _. Ainsi, la variable zik est calculée par :

z_

ik = f(Zi = kjXi = xi; _)

=

_kfk(xi; _k)

Xnk

k0=1

_k0fk0(xi; _k0)

(1.16)

2. la maximisation du critère QEM selon _ et conditionnellement à la valeur courante des

probabilités a posteriori zik :

__ = arg max

_

L(_;X;Z)

= arg max

_

X

xi2X

Xnk

k=1

zik log(_kfk(xi; _k)) (1.17)

Lorsque les lois sont des lois normales multi-dimensionnelles fk _ N(ck;_k) ck est la

moyenne et _k est la matrice de variances/covariances, alors la pdf fk est définie, pour des xi

vecteurs lignes, par :

fk(xi; _k) =

1

(2_)k=2j_j1=2

e􀀀1

2 (xi􀀀ck)_􀀀1(xi􀀀ck)>

La connaissance de la nature des lois permet de déterminer explicitement les formules de

mise à jour des paramètres (ck;_k) 8k 2 [1::nk]. Ainsi, dans le cas du mélange gaussien, on a :

c_

k =

X

xi2X

(zikxi)

X

xi2X

zik

__

k =

X

xi2X

_

zik(xi 􀀀 ck)>(xi 􀀀 ck)

_

X

xi2X

zik

1.5. BILAN 41

Enfin, les probabilités a priori sont également réestimées par :

_k =

1

n

X

xi2X

zik (1.18)

Algorithme 8 EM

ENTRÉES : X, nk, f

SORTIES : C = fC1; :::;Cnkg

1: Initialisation aléatoire des nk paramètres f_1; :::;_nkg

2: Étape E : Mise à jour des zik; 8xi 2 X; 8k 2 [1::nk] en utilisant (1.16)

3: Étape M : Mise à jour des _k 8k 2 [1::nk] en utilisant (1.17)

4: Mise à jour des _k 8k 2 [1::nk] en utilisant (1.18)

5: Si QEM change alors aller en 2

6: Ck = fxi 2 Xjzik = max

k02[1::nk]

zik0g 8k 2 [1::nk]

De la même manière que pour FKM, le résultat de l’algorithme n’est pas une partition stricte.

On peut néanmoins en obtenir une en appliquant la règle MAP, du maximum a posteriori, qui

consiste à affecter un individu xi au groupe Ck si cet individu a le plus de chance d’avoir été

généré par la k-ième composante du mélange, soit :

xi 2 Ck , k = arg max

k02[1::nk]

zik0

ce qui constitue l’étape 6 de l’algorithme EM pour le clustering.

Le modèle de mélange et l’algorithme EM offrent un atout de poids comparée aux autres

approches présentées précédemment. En effet celui-ci est générique du point de vue de l’hypothèse

faite sur la nature des distributions du mélange expliquant la génération de l’échantillon

X. Ainsi nous pouvons utiliser différents type de lois pour modéliser les groupes (lois gaussiennes,

multinomiales, poisson, etc.), l’algorithme reste le même, seul change le calcul explicite

de la mise à jour des paramètres du modèle.

1.5 Bilan

1.5.1 Les liens entre familles d’algorithmes de clustering

Les algorithmes présentés constituent un ensemble non exhaustif d’approches classiques

pour le clustering dédié aux données conventionnelles. Bien d’autres approches existent parmi

ces familles d’algorithmes, et la plupart des approches détaillées ont été étendues. De même

d’autres familles de méthodes existent, comme les méthodes basées sur :

– les grilles [Gan et al., 2007b] ;

– la factorisation de matrices non négatives noté NMF [Ding et al., 2005], [Li, 2008] ;

– les exemples (les individus) et le passage de messages entre eux [Frey and Dueck, 2007],

[Lashkari and Golland, 2008].

La dernière de ces familles offre de belles perspectives et de la nouveauté concernant la modélisation

de l’objectif du clustering, que l’on peut qualifier de micro, car se basant uniquement

sur les individus et les interactions possibles entre eux pour former une organisation globale. Les

autres familles sont plutôt macro et on définit en général un modèle global de groupes auquel

on cherche à conformer l’ensemble des individus. On dira dans le cas général, qu’une famille

est gouvernée par un paradigme qui correspond à une théorie majoritairement employée pour

42 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

résoudre l’objectif posé. L’algèbre linéaire est majoritairement présente dans les approches classiques

par partitionnement, de même que l’algorithmique et la théorie des graphes l’est pour les

approches basées sur le voisinage et la recherche de groupes denses. Enfin la théorie des probabilités

et la statistique offrent un cadre privilégié pour les approches intégrant l’incertitude pour

produire un modèle plus robuste et permettant d’obtenir des partitions plus adaptées et interprétables.

Quoiqu’il en soit, ces différents paradigmes convergent parfois et certains travaux participent

alors à une unification de différentes approches de clustering. On notera le résultat majeur

de l’équivalence entre KM et une variante classificatoire de EM [Celeux and Govaert, 1992]

pour l’estimation des paramètres d’un mélange de gaussiennes homoscédastiques (de variance

constante pour tous les groupes et pour toutes les dimensions à l’intérieur de ces groupes). La

variante classificatoire de EM consiste simplement à appliquer la règle MAP à chaque étape

de l’algorithme, remplaçant ainsi, pour chaque individu xi le vecteur des probabilités a posteriori

par un vecteur indicateur où un unique 1 indique quelle est la composante du mélange

ayant le plus de chance de générer xi une fois les paramètres établis. De même, des travaux

récents montrent l’équivalence au sein du cadre théorique des approches NMF, d’un clustering

par factorisation de matrice non négative et de SC [Ding et al., 2005]. Dans le même esprit, et

en utilisant les outils similaires de l’algèbre linéaire, des travaux ont également unifié une généralisation

de KM avec plusieurs heuristiques de partitionnement de graphes dans le contexte de

SC [Dhillon et al., 2005]. On notera aussi certains travaux qui combinent judicieusement des

arguments de divers paradigmes afin d’en exploiter les meilleurs parts comme l’approche des

graphes gaussiens génératifs [Aupetit, 2006] qui permet de capturer à la fois la topologie des

données et de plus de donner une interprétation statistique des résultats.

Les travaux d’unification en clustering sont très importants car ils aident à réorganiser les

recherches dans cette thématique où la production scientifique est parmi les plus prolifiques et

où il est difficile de suivre en temps réel l’intégralité des approches proposées [Jain, 2008]. Après

cette perspective positive des travaux autour du clustering, nous nous intéressons dorénavant à

certains points qui restent satellites autour du clustering mais qui constituent des problématiques

de recherche à eux seul pour enrichir les techniques de classification non supervisée :

– les paramètres types des approches de clustering que sont le nombre de groupes, et également

dans une certaine mesure le choix de la mesure de proximité, et la capacité des

approches présentées précédemment à tenir compte d’autres mesures que celles pour lesquelles

elles ont été développées (en général la norme L2) ;

– le problème d’évaluer ce qu’est une bonne partition de l’ensemble d’individus X. En effet

ce point est central et à l’heure actuelle, personne n’est encore capable de définir une

mesure d’évaluation d’une bonne partition universelle et absolue, hormis l’évaluation par

un expert dans un contexte complètement applicatif ;

– le problème du choix de l’algorithme dès lors que l’on est confronté à un ensemble d’individus

que l’on cherche à regrouper, sans hypothèses ou expertises supplémentaires.

1.5.2 Le problème du nombre de groupes

Le premier problème est relatif principalement aux approches par partitionnement strict

ou floue en un nombre de groupes fixé. Dans un cadre complètement non supervisé, aucune

connaissance sur ce nombre de groupes n’est disponible et celui-ci doit automatiquement être

appris à partir des données. Une première approche consiste à appliquer un même algorithme

pour différentes valeurs du nombre de groupes nk et retenir celui pour lequel la valeur du critère

objectif est optimale. Ceci est valable pour les approches où la fonction objectif est connue,

par exemple le critère inertiel de KM. Le principal problème de cette procédure est que dans

la plupart des cas, le nombre de groupes optimal tend à produire une solution dégénérée. Le

nombre de groupes pour obtenir un clustering optimal de X au sens du critère QKM par KM est

1.5. BILAN 43

jX j i.e. chaque individu constitue son propre groupe. La même remarque prévaut lors de l’observation

du critère de maximum de log-vraisemblance dans le cadre des modèles de mélange

pour un nombre de composantes croissant. Afin de pallier à ce genre de problème, des auteurs

ont proposé, notamment dans ce dernier cadre, d’intégrer le nombre de composantes comme un

paramètre du modèle, puis de pénaliser le critère classique de log-vraisemblance pour des paramètres

__ optimaux, par une fonction des degrés de libertés du nombre de groupes, traduisant

la complexité du modèle au sens de la Statistique. Ainsi, dans l’exemple des modèles de mélange,

si __ correspond aux paramètres optimaux du critère de log-vraisemblance L(_;X;Z)

et Nk est la variable aléatoire associée au nombre de groupes, alors plusieurs mesures de la

log-vraisemblance pénalisée L(Nk) peuvent être suggérées :

– le critère d’information de Akaike AIC [Aikake, 1973] :

L(Nk) = 2dl(Nk) 􀀀 2L(__;X;Z)

– le critère d’information bayésienne BIC [Schwarz, 1978] :

L(Nk) = ln(n)dl(Nk) 􀀀 2L(__;X;Z)

dl(Nk) correspond au degré de liberté de Nk et est déterminé par le nombre de paramètres

nécessaires pour estimer la log vraisemblance L(__;X;Z).

Ces critères constituent le socle des différentes approches de sélection de modèles en Statistique,

qui consiste à prendre, parmi une population de modèles (par exemple, parmi les modèles

de mélange de nombre de composantes différentes) celui qui est le plus en adéquation avec les

observations. Pour finir, ils permettent d’éviter le sur-apprentissage induit par l’augmentation

du nombre de composantes du mélange en trouvant un bon compromis. D’autres techniques

enfin proposent de ne pas pénaliser le critère de vraisemblance classique, mais de repérer une

faible variabilité, statistiquement significative du critère de vraisemblance entre deux valeurs de

nk données [Biernacki, 2009]. Ces méthodes, utilisables quelquesoit l’algorithme de clustering

formant une partition en nk groupes en adaptant le critère, se dénomment plus communément

les méthodes du coude.

1.5.3 Le problème de l’évaluation

L’évaluation d’un résultat de clustering est toujours un problème ouvert, car on ne connaît

pas toujours l’étiquette des individus. On ne peut en général pas se comparer à une classification

de référence correspondant aux classes des individus que l’on aimerait retrouver par l’approche

de clustering employée. Cependant, même lorsqu’une telle classification cible existe, de multiples

moyens existent pour effectuer la comparaison. Les différents critères d’évaluation sont

présentés en trois familles :

– les critères internes n’exploitant aucune classification de référence ;

– les critères externes visant à quantifier l’écart ou la similarité entre le clustering produit et

la classification de référence ;

– les critères subjectifs, car relatifs à un algorithme ou une famille d’algorithmes particuliers.

Les critères internes et les critères subjectifs ne seront pas présentés dans la mesure où

les approches proposées ont systématiquement été évaluées via une classification de référence.

Cependant, leurs descriptions peuvent être trouvées en détail dans [Gan et al., 2007a].

Lorsque toutes les étiquettes de classes sont disponibles, on peut utiliser un critère d’évaluation

externe mesurant l’adéquation entre la classification obtenue C par l’algorithme de clustering

et la classification de référence C. De nombreuses méthodes existent et nous relaterons ici

celles qui ont été utilisées pour valider les différentes contributions, ainsi que celles qui participent

au coeur de quelques approches qui seront développées par la suite dans les états de l’art

spécifiques à chaque problématique traitée.

44 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

1.5.3.1 Mesures basées sur l’énumération

Soient M le nombre de paires d’individus et tp, fp, tn, fn les nombres de vrais-positifs,

faux-positifs, vrais-négatifs, faux-négatifs tels que :

tp est le nombre de paires d’individus regroupés à la fois dans le clustering C et dans la

classification de référence C;

fp est le nombre de paires d’individus regroupés dans le clustering C mais non dans la

classification de référence C;

tn est le nombre de paires d’individus dans des groupes différents dans C (le clustering

obtenu) et dans C (la classification de référence);

fn est le nombre de paires d’individus dans des groupes différents dans C mais ensemble

dans la classification de référence C.

La relation liant M, tp, fp, tn et fn est :

M = tp + fp + tn + fn =

n(n 􀀀 1)

2

Indice de Rand. L’indice de Rand est obtenu en observant la proportion de paires d’individus

classés de la même manière dans C et dans C :

Rand(C; C) =

tp + tn

M

(1.19)

Indice de Jaccard. L’indice de Jaccard s’exprime comme le nombre de paires correctement

regroupés sur le nombre de paires d’individus identifiés ensemble dans C ou dans C :

Jaccard(C; C) =

tp

M 􀀀 tn

(1.20)

F-mesure. La F-mesure combine précision et rappel sur les paires d’individus. La précision

reflète la proportion de paires correctement identifiées sur le nombre de paires d’individus retrouvées

dans C :

Précision(C; C) =

tp

tp + fp

Le rappel correspond à la proportion de paires correctement identifiées par rapport au

nombre de paires d’individus classés ensemble dans C :

Rappel(C; C) =

tp

tp + fn

La F-mesure est alors une mesure mélangeant linéairement les deux critères par :

F-mesure(C; C; _) =

(_2 + 1) _ Précision(C; C) _ Rappel(C; C)

_2 _ Précision(C; C) + Rappel(C; C)

(1.21)

Les indices de Rand, Jaccard et la F-mesure ont des valeurs d’autant plus fortes que le clustering

obtenu est de bonne qualité relativement à la classification de référence.

1.5. BILAN 45

1.5.3.2 Mesures statistiques basées sur l’entropie.

Soient _k, _c et _ck les nombres d’individus respectivement dans le groupe Ck, dans la classe

Cc et dans l’intersection de Ck et Cc:

_k =

jCkj

n

_c =

jCcj

n

_ck =

jCk \ Ccj

n

Les différentes mesures suivantes visent à quantifier l’information semblable dans le clustering

produit C et la classification de référence C.

Entropie moyenne. Soit H(Ck; Cc) l’entropie d’information conjointe du groupe Ck et de la

classe Cc:

H(Ck; Cc) = 􀀀_ck _ log(_ck) (1.22)

L’entropie d’information moyenne AvgEnt utilise les étiquettes de classes pour calculer la

moyenne de l’impureté de chaque groupe pondérée par la taille de ceux-ci:

AvgEnt(C; C) =

Xnk

k=1

_k

 

Xnc

c=1

H(Ck; Cc)

!

On appelle également information jointe entre Ck et Cc notée I(Ck; Cc), quantité négative

correspondante à la négentropie conjointe :

I(Ck; Cc) = 􀀀H(Ck; Cc)

Information mutuelle. L’information mutuelle normalisée quantifie l’information statistique

partagée entre deux distributions (par exemple les distributions des étiquettes de groupes et des

étiquettes de classes), elle peut être définie via la mesure d’entropie.

Soit H(C; C) l’entropie conjointe des partitions C et C:

H(C; C) =

Xnk

k=1

Xnc

c=1

H(Ck; Cc) (1.23)

Soit H(C) et H(C) les entropies des partitions C et C:

H(C) = 􀀀

Xnk

k=1

_k _ log(_k)

H(C) = 􀀀

Xnc

c=1

_c _ log(_c)

L’information mutuelle normalisée de façon arithmétique s’exprime alors par:

NMI(C; C) = 2 _

MI

H(C) + H(C)

(1.24)

avec

MI(C; C) = H(C) + H(C) 􀀀 H(C; C) (1.25)

Soient pCk et pCc les distributions des individus sur le groupe Ck et sur la classe Cc respectivement

où :

46 CHAPITRE 1. CLASSIFICATION NON SUPERVISÉE

pCk (Zi = k) vaut 1 si xi 2 Ck et 0 sinon (Zi est la variable correspondant à l’étiquette de

xi dans le clustering Ck) ;

pCc(l(xi) = c) vaut 1 si xi 2 Cc et 0 sinon (l(xi) est la variable correspondant à l’étiquette

de xi dans la classe Cc).

On appelle également divergence de Kullback-Leibler (KL) entre Ck et Cc la mesure positive

quantifiant la dissemblance entre les distributions des individus sur les groupes pCk et la

distribution des individus sur les classes pC :

KL(pCk jj pCc) =

Xn

i=1

pCk (Zi = k) _ log

_

pCk (Zi = k)

pCc(l(xi) = c)

_

(1.26)

qui se généralise pour la mesure de dissimilarité entre le clustering C et la classe C par :

KL(C jj C) =

Xnk

k=1

Xnc

c=1

KL(pCk jj pCc) (1.27)

Soit pCk;Cc la distribution jointe des individus sur l’intersection du groupe Ck et de la classe

Cc avec pCk;Cc(Zi = k; l(xi) = c) vaut 1 si xi 2 Ck et xi 2 Cc et 0 sinon. L’information mutuelle

peut alors se réécrire comme la divergence de Kullback-Leibler entre la distribution jointe pCk;Cc

des clusterings et des classes, et la distribution jointe sous hypothèse d’indépendance pCk _ pCc

entre les clusterings et les classes :

MI(C; C) = KL(pCk;Cc jj pCk _ pCc)

Selon (1.24), l’information mutuelle normalisée peut alors être réécrite par :

NMI(C; C) = 2 _

KL(pCk;Cc jj pCk _ pCc)

H(C) + H(C)

L’entropie moyenne a des valeurs d’autant plus faibles que le clustering obtenu est en adéquation

avec la classification de référence, tout comme la divergence de Kullback-Leibler. À l’opposé,

plus la valeur d’information mutuelle est élevée, plus le résultat est conforme à la classification.

1.5.4 Le choix de la proximité

Tout algorithme de clustering repose sur une mesure permettant de quantifier la proximité

entre deux individus. Dans le cas le plus général, les données correspondent à un ensemble de

mesures de type flottant pour chaque individu xi 2 X, ainsi xi 2 Rp. De ce fait la mesure choisie

correspond au carré d’une distance, la plupart du temps euclidienne jj:jj2 qui correspond à la

métrique la plus usuelle pour l’espace Rp. Néanmoins, il peut arriver dans diverses applications

que les descriptions des individus soient de type symbolique ou catégorielle ou encore que l’on

désire utiliser une mesure de proximité ne se comportant pas comme une distance dans l’espace

de description de X. Dans de tels cas, on définit de nouvelles mesures dites de similarité ou

de dissimilarité ayant chacune des propriétés particulières telles que la minimalité, la symétrie,

l’identité ou l’inégalité triangulaire.

Soit f : X _ X 7! R une fonction de proximité, on définit les propriétés:

minimalité : f vérifie la minimalité ssi

8xi 2 X; f(xi; xi) = 0

maximalité : f vérifie la maximalité ssi

8(xi; xj ; xk) 2 X3; f(xi; xi) _ f(xj ; xk)

1.5. BILAN 47

symétrie : f vérifie la symétrie ssi

8(xi; xj) 2 X2; f(xi; xj) = f(xj ; xi)

identité : f vérifie l’identité ssi

8(xi; xj) 2 X2; f(xi; xj) = 0 ) xi = xj

inégalité triangulaire : f vérifie l’inégalité triangulaire ssi

8(xi; xj ; xk) 2 X3; f(xi; xj) _ f(xi; xk) + f(xk; xj)

Parmi les diverses familles de proximités existantes :

– une distance telle la distance euclidienne jj:jj2 satisfait la minimalité, la symétrie, l’identité

et l’inégalité triangulaire;

– une dissimilarité satisfait la minimalité et la symétrie;

– une similarité satisfait la maximalité et la symétrie.

1.5.5 Le choix de l’algorithme

Une autre problématique de choix survient, notamment lorsque les informations de proximités

sont fixées, et que l’on ne parvient pas à obtenir un clustering satisfaisant avec une approche

particulière. Ainsi les données correspondent alors à une matrice de similarité, de dissimilarité

ou de distance. L’obtention d’une solution différente et plus intéressante pour le praticien des

techniques de clustering peut se faire par l’application d’un autre algorithme, capable de prendre

en compte la matrice de proximité constituant les données. Parmi les familles d’approches présentées,

les algorithmes hiérarchiques DIANA et AGNES, ainsi que DBSCAN et SC ne nécessitent

pas de modifications majeures pour être applicables. Les autres méthodes sont fondées sur la distance

euclidienne et nécessitent d’être étendues pour pouvoir prendre en compte des mesures

de similarité afin de garantir les mêmes propriétés (de convergence notamment). Un exemple

type d’un tel travail est l’extension de KM en KM à noyau ou KKM [Kulis et al., 2005] qui sera

présenté plus en détail par la suite, mais dont l’idée est de définir une mesure de distance euclidienne

à partir des informations de proximités (en général, de similarités). Enfin, de récents

paradigmes dont il sera question par la suite proposent de ne pas nécessairement choisir un

algorithme, mais d’appliquer plusieurs algorithmes différents. Le choix en est alors laissé à l’utilisateur

entre :

– avoir plusieurs résultats de clusterings différents pour un même ensemble d’individus mais

tous de bonne qualité au sens d’une évaluation particulière ;

– choisir le meilleur clustering parmi les différents résultats ;

– construire un clustering qui réalise un accord entre les divers résultats possibles.

Ces différents choix sont autant de problématiques auxquelles les contributions proposées

dans la suite visent à apporter des éléments de réponse. Ces apports constituent chacun un

chapitre de ce travail de thèse.

 

Classification non supervisée 2

multi-vues centralisée

Sommaire

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3 Approches centralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.3.1 MVDBSCAN : DBSCAN multi-vues . . . . . . . . . . . . . . . . . . . . . 53

2.3.2 COFC : clustering flou collaboratif . . . . . . . . . . . . . . . . . . . . . 54

2.3.3 FCPU : clustering flou dans les univers parallèles . . . . . . . . . . . . 56

2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives . . . . . . 58

2.3.5 COMRAF*: champs aléatoires combinatoires de markov . . . . . . . . 61

2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues . 63

2.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.2 COFKM : clustering flou multi-vues . . . . . . . . . . . . . . . . . . . . 66

2.4.3 COKFKM : clustering flou multi-vues à noyaux . . . . . . . . . . . . . . 73

2.5 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

2.5.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.5.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.5.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.5.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

50 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

2.1 Introduction

Dans ce chapitre présentant la problématique du clustering multi-vues, les contributions

COFKM et COKFKM sont développées. Elles ont été validées par différentes communautés scientifiques

établissant des avancées dans le domaine de la Fouille de données et de l’Apprentissage

[Sublemontier et al., 2009], [Cleuziou et al., 2009], [Sublemontier et al., 2011a]. Le contexte

scientifique amenant les propositions sera établi. L’étude d’une famille d’algorithmes de clustering

multi-vues rencontrées dans l’état de l’art permettra de compléter d’un point de vue technique

l’appréhension du problème et sa résolution. Les différentes techniques, dites centralisées

sont pour la grande majorité basées sur un principe de minimisation d’un désaccord ou, de

manière équivalente, de maximisation d’un accord. À l’instar des algorithmes présentés dans le

chapitre 2, elles seront détaillées selon leur nature discriminative, générative, ou purement algorithmique.

Par suite, les contributions proposées seront introduites, formalisées et recentrées au

coeur des études de l’état de l’art. Les études empiriques réalisées permettent de valider l’intérêt

pratique des différentes contributions, et la discussion permettra de présenter les avantages et

inconvénients de celles-ci. Pour finir, la conclusion dressera les perspectives d’amélioration du

modèle.

L’objectif des approches de clustering multi-vues basées sur la réduction de désaccord est

de produire une structure permettant d’organiser les données décrites par plusieurs représentations.

Celle-ci correspond majoritairement à une partition de taille fixée issue d’une recherche

de consensus entre plusieurs algorithmes appliqués sur les différentes vues des données. La notation

suivante permet d’harmoniser les formalisations des différentes approches et participe à

une meilleure compréhension des apports :

NOTATION

n : le nombre d’individus à regrouper.

n(r)

p : le nombre d’attributs décrivant les individus dans la vue r.

nk : le nombre de groupes à identifier.

nc : le nombre de classes associé aux données.

X = fx1; :::; xng : l’ensemble des n individus à partitionner.

X(r) 2 Rn_n(r)

p : la représentation matricielle de X dans la vue r.

x(r)

i 2 Rn(r)

p : la représentation vectorielle de l’individu xi dans la vue r.

C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.

_ = fC(1); :::;C(nr)g : l’ensemble des nr clusterings locaux dans chaque vue.

C(r) = fC(r)

1 ; :::;C(r)

nk g : l’ensemble des nk groupes du clustering dans la vue r.

C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.

d(r)(xi; xj) : la distance au sens général entre deux individus xi et xj dans la vue r.

jjx(r)

i 􀀀 x(r)

j jjp : la distance de Minkowski entre deux individus xi et xj dans la vue r.

2.2 Contexte

Le clustering multi-vues et l’hypothèse du consensus. La problématique du clustering multivues

peut être définie ainsi : À partir d’un ensemble de tableaux relationnels et/ou descriptionnels

(les vues), trouver une partition stricte de l’ensemble d’individus en tenant compte

simultanément de l’ensemble des tableaux. Les différentes vues des données induisent naturellement

des clusterings propres de bonne qualité et différents. L’hypothèse du consensus traduit

le fait qu’une solution de clustering différente, obtenue par la prise en compte simultanée de

2.2. CONTEXTE 51

l’ensemble des vues, doit être de meilleure qualité. En particulier, cette solution satisfait un accord,

ou un consensus entre les clusterings locaux potentiels. Cette problématique s’inscrit dans

un cadre large de données :

– réparties sur plusieurs sites ;

– pour lesquelles les descriptions sont accessibles par l’intermédiaire de sources multiples ;

– décrites par des groupes de variables de types différents ;

– décrites dans le temps ou plus généralement dans des conditions différentes.

Les applications. Parmi les nombreux domaines d’applications présentés par exemple dans

l’introduction, les approches proposées ont été appliquées à la reconnaissance de chiffres manuscrits

et à la classification automatique de pages web.

Dans le premier type d’application, le problème est que les individus, qui sont des instances

d’images de caractères manuscrits peuvent être numériquement décrits selon différentes mesures

propres à l’analyse et au traitement du signal (coefficients de Fourier, coefficients de

Karhunen-Loève, intensité des pixels ou autre descripteurs morphologiques). Chacune de ces

mesures capture différents aspects de la forme des chiffres. L’établissement d’une mesure de

proximité fondée sur chacune de ces descriptions est un problème car elles sont souvent sensibles

à des transformations mineures des individus. L’intensité des pixels est sensible à la translation

et les descriptions morphologiques sont insensibles à la rotation rendant par exemple

difficile la différenciation du chiffre « 6 » et du chiffre « 9 ». L’utilisation conjointe de différentes

représentations des individus peut aider à retrouver les bonnes classes.

Dans le second cas, la tâche est d’effectuer un regroupement de différentes pages où chaque

page est tirée d’une université parmi quatre universités américaines. Chaque page correspond

soit à un étudiant, un département, une faculté, un projet, un membre salarié ou un cours. De

ces pages sont considérées le contenu textuel, pour lequel des mesures de similarité adaptées

peuvent être construites afin de retrouver les classes d’origine. Cette représentation est enrichie

d’un autre vocabulaire émanant cette fois du texte écrit dans les liens entrant vers chacune des

pages. Cet aspect supplémentaire des pages peut aider le clustering en permettant d’identifier

plus facilement les classes.

Les différents principes d’intégration. En général, même si la mise à disposition d’informations

supplémentaires complexifie en général les approches, elles peuvent être vues au contraire

comme un moyen supplémentaire de réussir à identifier les bonnes classes. Cela devient donc

un atout de pouvoir disposer de plusieurs sources d’information notamment lorsque prises isolément

celles-ci ne sont pas suffisantes pour obtenir un clustering cible souhaité.

Dans ce contexte, il convient alors de combiner les informations de chacune des vues par l’intermédiaire

d’un processus de fusion consistant à identifier l’accord entre les vues et à réduire le

conflit. Plusieurs stratégies de fusion peuvent être appliquées, en amont, en aval, ou pendant le

processus de classification. La fusion en amont ou a priori consiste à combiner les différentes représentations

des individus, soit en concaténant les descripteurs lorsque les données sont de type

vectoriel ou attribut-valeur, soit en effectuant une combinaison (le plus souvent linéaire) des

différentes valeurs de proximité lorsque les données sont relationnelles [Heer and Chi, 2002],

[Yamanishi et al., 2004].

La fusion en aval ou a posteriori [Reza et al., 2009] vise plutôt à construire localement un

clustering adapté dans chaque représentation puis à appliquer un processus de conciliation entre

les différentes partitions pour parvenir à un clustering consensus. Ce problème est étudié plus

en détail dans le chapitre 4. Les différentes approches sont schématisées dans la figure 2.1.

52 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Données ...

vue 1

Données

vue 2

Données

vue V

Partition

consensus

Clustering

Fusion

Données ...

vue 1

Données

vue 2

Données

vue V

Clustering

vue 1

Clustering

vue 2

Clustering

vue V

Fusion

Partition

consensus

Données ...

vue 1

Données

vue 2

Données

vue V

Partition

consensus

Fusion

+

Clustering

FIGURE 2.1 —Les différentes fusions du clustering multi-vues. Dans l’ordre, ci-dessus, les fusions a priori,

a posteriori et dans le processus de clustering.

Ce chapitre concerne les approches réalisant un consensus pendant le processus de clustering.

Toutes fonctionnent sur le principe d’une minimisation d’un terme de désaccord, ou de manière

duale la maximisation d’une fonction d’accord entre les clusterings naturels en construction localement

dans chaque vue. Cette optimisation simultanée peut être explicite via la définition

d’une fonction réalisant cet objectif, ou bien implicite via un algorithme construisant une solution

satisfaisant effectivement un tel accord. L’étude est centrée autour des approches dites

centralisées et s’inscrivant parmi les familles plutôt discriminatives et génératives. Les approches

centralisées visent à réunir dans un traitement unique, des données qui peuvent être elles décentralisées.

Historiquement, les approches développées avant la proposition des contributions

étaient soit :

locales et restreintes du point de vue de la définition du critère objectif pour garantir de

bonnes propriétés de convergence, résultant alors en une construction des groupes peu

intuitive [Pedrycz, 2002] ;

globales et plus abouties du point de vue de la formulation du problème, mais pour lequel

le problème de convergence vers une solution unique est résolu de manière artificielle et

moins élégante [Bickel and Scheffer, 2005].

Parmi les contributions proposées, COFKM vise à répondre à ces différents problèmes à

travers la définition d’un critère objectif simple, flexible, et permettant d’en dériver un algorithme

intuitif et facilement implémentable. COKFKM est une proposition permettant d’étendre

COFKM à des données relationnelles qui peuvent se retrouver couramment parmi les applications.

2.3 Approches centralisées

À l’instar des méthodes de clustering classiques, les approches multi-vues centralisées ont été

développées en suivant différents paradigmes de modélisation. On dénombre ainsi :

– les approches purement algorithmiques ;

– les approches discriminatives ou basées sur un modèle statistique graphique procédant à

l’optimisation d’un critère objectif.

Cependant, à des fins d’observation fine du phénomène de réduction du désaccord entre

les clusterings locaux de chaque vue, le second paradigme sort victorieux notamment par la

possibilité d’exprimer la recherche d’une bonne solution comme optimale d’un certain critère

objectif intégrant une mesure de ce désaccord. Les critères ainsi proposés prennent le plus souvent

la forme d’une combinaison d’un terme classique traduisant la recherche d’un clustering

2.3. APPROCHES CENTRALISÉES 53

dans chaque vue, pénalisé par un terme exprimant la recherche de l’accord entre ces différents

clusterings. Ainsi l’objectif est de trouver un compromis entre la découverte de clusterings locaux

et la recherche du consensus, selon le formalisme général suivant :

clustering multi-vues =

Xnr

r=1

objectif local(r) 􀀀 désaccord(_) (2.1)

Ainsi, les différentes approches qui peuvent se ramener à un formalisme de ce type seront

présentées comme des instances de celui-ci dans la suite de ce chapitre.

2.3.1 MVDBSCAN : DBSCAN multi-vues

Une des premières approches classiques étendues au cadre du traitement de données multireprésentées

est DBSCAN (cf. section 1.3.2.1), au travers l’approche de [Kailing et al., 2004],

nommée MVDBSCAN. L’idée est de définir un mécanisme de combinaison des différentes représentations

dans le but de rendre applicable l’algorithme DBSCAN. Cette applicabilité nécessite de

redéfinir les propriétés coeur et frontière des individus, centraux dans la définition des groupes.

Algorithme

Pour rappel, DBSCAN nécessite deux paramètres : _ et MinP ts. Si MinP ts est un paramètre

pouvant être défini identiquement dans toutes les représentations, _ lui ne peut rendre compte

des topologies propres à chaque représentation en étant défini de manière globale. Les auteurs

proposent alors de le définir localement pour chaque vue : _(r). Ainsi, à partir de ces paramètres,

on peut définir localement un voisinage pour chaque individu N_(r)(xi) de la manière suivante :

N_(r)(xi) = fxj 2 X j d(r)(xi; ck) _ _(r)g

Par cette formalisation locale de voisinage, les auteurs proposent alors deux types de voisinage

globaux, permettant de décider, dans un contexte plus proche de l’application de DBSCAN,

de la propriété pour un individu d’être coeur. Les auteurs proposent différents types de voisinage

selon la nature des données multi-vues. Ainsi, un voisinage de type union N[(xi) est exprimé

par :

N[(xi) =

[

r2[1::nr]

N_(r)(xi) (2.2)

De la même manière, un voisinage de type intersection N\(xi) est défini par :

N\(xi) =

\

r2[1::nr]

N_(r)(xi) (2.3)

xi 2 X est alors un individu coeur de type union (resp. intersection) si jN[(xi)j _ MinP ts

(resp. jN\(xi)j _ MinP ts). Les auteurs suggèrent de combiner par une union les représentations

dans lesquelles les données sont éparpillées, lorsqu’il est difficile de distinguer le bruit

(correspondant à des individus mal mesurés) d’une structure de groupes. Enfin, les représentations

denses, portant davantage d’informations, sont combinées par une intersection. L’algorithme

DBSCAN peut alors être employé, au choix à partir de la définition du type de voisinage

(cf. algorithme 9). Les définitions d’atteignabilité sont directement transposées des définitions

de DBSCAN et adaptées selon le type de voisinage. On notera alors indépendemment du type de

voisinage choisi :

A(xi) = fxj 2 X j xj est atteignable en densit_e par xig

Pour rappel, les individus considérés comme du bruit (mal définis ou outliers) sont désignés

par R.

54 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Algorithme 9 MVDBSCAN

ENTRÉES : X, MinP ts, f_(r)gr2[1::nr], type

SORTIES : C = fC1; :::;Cnkg, R

1 : Si type = union alors construire N(xi) = N[(xi) 8xi 2 X

2 : Si type = intersection alors construire N(xi) = N\(xi) 8xi 2 X

3 : C = clustering de X par DBSCAN (cf. algorithme 5) selon N.

Discussion

Cette approche souffre de plusieurs faiblesses, comme l’imposition a priori du type de combinaison

pour toutes les représentations, et la multiplicité des paramètres. Les auteurs proposent

à l’image de DBSCAN un moyen heuristique pour déterminer les valeurs locales de _ en fixant

l’autre paramètre MinP ts. En ce qui concerne la combinaison, l’approche a été étendue ultérieurement

pour pouvoir considérer simultanément une partie des représentations par union et

l’autre partie par intersection, après avoir décidé au travers de critères objectifs de la prévalence

de chacune des représentations à un type de combinaison particulier. La combinaison des

différentes représentations est représentée au moyen d’une structure d’arbre appelée arbre de

combinaison [Achtert et al., 2006].

2.3.2 COFC : clustering flou collaboratif

Le clustering flou collaboratif, développé par [Pedrycz, 2002] reprend l’approche FKM (cf.

section 1.4.1) et en dérive une variante collaborative, notée COFC, pour le contexte multi-vues,

il s’agit donc d’une approche discriminative. La collaboration entre les vues est réalisée au travers

de l’échange des degrés d’appartenances des individus aux groupes.

Objectif

[Pedrycz, 2002] propose de présenter l’objectif comme la minimisation pour une vue r donnée,

d’un critère basé sur FKM, pénalisé par une fonction de désaccord modélisant un écart entre

la partition floue locale à construire et les partitions floues provenant des autres vues (2.4). L’auteur

propose de renforcer ou diminuer l’impact de la pénalisation en introduisant une matrice

de collaboration _ telle qu’une grande valeur de _rr0 force une plus grande collaboration entre

les vues r et r0.

Le critère QCOFC s’inscrit dans le paradigme des critères pénalisés, ainsi :

QCOFC(c; u; r) = objectif local(r) + désaccord(_)

avec

objectif local(r) =

X

xi2X

Xnk

k=1

u(r)

ik

2

d2(

r)(xi; ck)

désaccord(_) = _(_; r)

Dans ce contexte le premier terme du critère, à minimiser, correspond à l’objectif local qui

est l’inertie floue semblable à QFKM à paramètre _ fixé (_ = 2). Le second terme, à minimiser

également, modélise le désaccord entre les clusterings locaux C(r) représentés par leurs centres

c(r) et leurs degrés d’appartenance u(r). Pour r donné, ce désaccord est fonction des centres c(r)

2.3. APPROCHES CENTRALISÉES 55

et mesure l’écart entre les degrés d’appartenance locaux u(r) et les degrés u(r) des autres vues,

renforcé par les variables de collaboration _(r)(r). Ainsi _ est défini par :

_(c; u; r) =

Xnr

r=1

r6=r

_(r)(r)

X

xi2X

Xnk

k=1

(u(r)

ik 􀀀 u(r)

ik )2d2(

r)(xi; ck)

Le problème d’optimisation associé est alors exprimé par :

min

c;u

QCOFC(c; u; r)

= min

c;u

Xnk

k=1

X

xi2X

u(r)

ik

2

d2(

r)(xi; ck) +

Xnr

r=1

r6=r

_(r)(r)

X

xi2X

Xnk

k=1

(u(r)

ik 􀀀 u(r)

ik )2d2(

r)(xi; ck)

s:t:

Pnk

k=1 u(r)

ik = 1 8xi 2 X

u(r)

ik _ 0 8xi 2 X; 8k 2 [1::nk]

(2.4)

Dans la version classique FKM, le critère d’inertie flou est modulé par un paramètre _ > 1

qui est ici fixé à 2 dans l’objectif de COFC, pour des raisons d’optimisation efficace du critère et

par extension, de convergence de l’algorithme d’optimisation associé au problème. De ce point

de vue, COFC ne généralise pas pleinement FKM. Ce problème est résolu par l’optimisation

alternée des différentes variables c et u.

Algorithme

À l’image de FKM, dès lors que le critère est posé, l’algorithme se déduit naturellement. En

effet le but étant de minimiser le critère objectif, l’optimal est atteint lorsque les conditions du

premier ordre sont satisfaites. Ainsi, ces conditions permettent d’établir des expressions de mise

à jour optimales des degrés d’appartenance, connaissant les prototypes des groupes :

u(r)

ik

_

=

Xnr

r=1

r6=r

_(r)(r)u(r)

ik

1 +

Xnr

r=1

r6=r

_(r)(r)

+

1

Xnk

k0=1

d2(

r)(xi; ck)

d2 (r)(xi; ck0)

(1 􀀀

Xnk

k0=1

Xnr

r=1

_(r)(r)u(r)

ik0

Xnr

r0=1

_(r)(r)

) (2.5)

De la même manière, si on a à disposition les degrés d’appartenance considérés comme optimaux,

alors nous pouvons mettre à jour de manière optimale les prototypes des groupes par :

c(r)

k

_

=

X

xi2X

u(r)

ik

2

x(r)

i +

Xnr

r=1

_(r)(r)

X

xi2X

(u(r)

ik 􀀀 u(r0)

ik )2xi

X

xi2X

u(r)

ik

2

+

Xnr

r=1

_(r)(r)

X

xi2X

(u(r)

ik 􀀀 u(r0)

ik )2

(2.6)

Discussion

56 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Algorithme 10 COFC

ENTRÉES : X, nk, _

SORTIES : C = fC1; :::;Cnkg

1 : Appliquer FKM sur X; 8r 2 [1::nr]

2 : Mise à jour des u(r)

ik ; 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.5)

3 : Mise à jour des c(r)

k ; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.6)

4 : Si QCOFC change alors aller en 3

5 : Ck = fxi 2 Xju(r)

ik = max

k02[1::nk]

u(r)

ik0 g; 8k 2 [1::nk]

L’approche COFC permet d’obtenir, pour une vue r contenant des informations sur un ensemble

d’individus X, un clustering flou de X en exploitant des informations émanant d’autres

vues. Ces informations prennent la forme, pour chaque individu, d’un profil d’appartenance à

l’ensemble des groupes, tel que les nombres de groupes dans toutes les vues soient identiques :

8k 2 [1::nk]; 8r 2 [1::nr] n(r)

k = nk. Ce choix d’intégration a l’avantage de préserver la confidentialité

des données. En particulier, dans une vue r, il n’est pas possible d’accéder aux propriétés

présentes dans les autres vues. Ainsi, seuls les degrés d’appartenance sont échangés entre les

vues. Cela réduit le coût opérationnel de transfert d’informations par le réseau entre les différentes

parties des données présentes sur ces différents sites.

Néanmoins, l’approche, visant à étendre FKM, ne peut le faire complètement (choix de _).

De plus, malgré l’aspect intuitif et facilement interprétable du critère objectif à optimiser, celuici

induit des formules de mises à jour des variables du problème d’optimisation, elles, très peu

intuitives. Enfin, lorsque l’on cherche un clustering collaboratif à partir d’une vue r, il n’est

pas précisé si les informations provenant des autres vues sont immuables ou si elles évoluent

également en parallèle. Quoiqu’il en soit, il n’y a pas de processus de construction des groupes

réellement global, où les groupes dans chaque vue sont construits simultanément pour tendre

vers une solution consensus bien définie comme l’optimale d’une fonction globale sur les vues.

2.3.3 FCPU : clustering flou dans les univers parallèles

Dans le même esprit que l’approche COFC, d’autres propositions ont pour objectif d’étendre

FKM au cadre des représentations multiples. L’approche de clustering flou dans les univers parallèles

[Wiswedel and Berthold, 2007], notée FCPU a pour objectif de trouver une organisation

globale en exploitant simultanément l’ensemble des vues disponibles, appelées univers parallèles.

L’idée principale que l’on considère ici est que les individus ne contribuent pas de manière

équivalente à la définition des groupes dans les différentes représentations. Les auteurs proposent

alors d’introduire une variable modélisant pour chaque individu sa contribution à la

définition des groupes dans chaque vue. Cela permet d’observer leur apport aux processus de

clusterings locaux, qui sont réalisés simultanément.

Objectif

Les auteurs formalisent la recherche de l’ensemble des degrés d’appartenance flous (dans

toutes les vues) comme l’optimum d’un critère (QFCPU) basé sur une combinaison linéaire des

inerties floues (type FKM) locales, pondérées par les contributions des individus aux représentations

:

QFCPU(c; u; v) =

Xnr

r=1

objectif local(r)

2.3. APPROCHES CENTRALISÉES 57

avec

objectif local(r) =

Xnr

r=1

X

xi2X

v(r)

i

 

Xnk

k=1

u(r)

ik

_

d2 (r)(xi; ck)

Par rapport à la forme globale des critères objectifs des approches centralisées, on peut noter

que la recherche d’un accord ne fait pas parti de l’objectif global, dans la mesure où les auteurs

se placent dans le cadre où tous les groupes ne sont pas significativement identifiables dans

chaque représentation. Le problème d’optimisation correspondant est alors :

min

c;u;v

QFCPU(r) =

Xnr

r=1

X

xi2X

v(r)

i

 

Xnk

k=1

u(r)

ik

_

d2 (r)(xi; ck)

s:t:

Pnk

k=1 u(r)

ik = 1 8xi 2 X; 8r 2 [1::nr] Pnr

r=1 v(r)

i = 1 8xi 2 X

u(r)

ik _ 0 8xi 2 X; 8r 2 [1::nr]; 8k 2 [1::nk]

v(r)

i _ 0 8xi 2 X; 8r 2 [1::nr]

(2.7)

La solution localement optimale est encore une fois déterminée par optimisation alternée

sur les différentes variables et son obtention est complètement dérivée du critère.

Algorithme

De manière similaire à COFC, le critère objectif, intuitif, permet de dériver un algorithme

simple pour chercher un optimum local. Partant d’un ensemble de valeurs initiales des variables

du problème d’optimisation (prototypes, degrés d’appartenance et contributions), chacune des

variables peut être ré-estimée de manière optimale par une formule issue de la résolution du

système émanant de la satisfaction des conditions du premier ordre. Ainsi, pour des valeurs de

prototypes et de contributions fixées, les nouveaux degrés d’appartenance sont mis à jour par :

u(r)

ik

_

=

_

d2 (r)(xi; ck)

_1=(1􀀀_)

Xnk

k0=1

_

d2 (r)(xi; ck0)

_1=(1􀀀_)

(2.8)

ce qui correspond exactement à la mise à jour des degrés d’appartenance de FKM dans la

vue r.

De la même manière, en fixant les degrés d’appartenance et les contributions, et en établissant

la nature de la distance d(r), les nouveaux prototypes sont appris par :

c(r)

k

_

=

X

xi2X

v(r)

i

 

u(r)

ik

_

xi

X

xi2X

v(r)

i

 

u(r)

ik

_ (2.9)

pour une distance euclidienne d(r)(xi; ck) = jjxi 􀀀 ckjj2. Chaque centre c(r)

k devient alors le

barycentre des individus, pondérés par leur degré d’appartenance au groupe Ck, et pondérés

également par leur contribution au clustering dans la vue r.

58 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Enfin, pour les degrés d’appartenances et prototypes courants connus, les contributions sont

réévaluées par :

v(r)

i

_

=

_Xnkr

k=1

u(r)

ik

_

d2 (r)(xi; ck)

_1=(1􀀀)

Xnr

r0=1

_nXkr0

k=1

u(r0)

ik

_

d2 (r0)(xi; ck)

_1=(1􀀀)

(2.10)

Algorithme 11 FCPU

ENTRÉES : X, fn(r)

k gr2[1::nr], _,

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation des n(r)

k centres de groupes fc(r)

1 ; :::; c(r)

nk g dans la vue r

2 : Mise à jour des u(r)

ik ; 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.8)

3 : Mise à jour des c(r)

k ; 8k 2 [1::nk]; 8r 2 [1::nr] en utilisant (2.9)

4 : Mise à jour des v(r)

i ; 8xi 2 X; 8r 2 [1::nr] en utilisant (2.10)

5 : Si QFCPU change alors aller en 2

6 : Ck = fxi 2 Xju(r)

ik = max

k02[1::nk]

u(r)

ik0 g; 8k 2 [1::nk]

Discussion

FCPU se place dans un cadre général où l’on suppose que les diverses vues des individus

sont insuffisantes isolément pour identifier l’ensemble des classes. Ainsi, tous les individus ne

sont pas utiles localement pour représenter les groupes. Enfin le critère objectif est intuitif, et

contrairement à COFC, les mises à jour des paramètres le sont aussi.

Néanmoins, même si l’introduction de la variable permettant de capturer la contribution

naturelle des individus à la définition des groupes est une idée à retenir, plusieurs problèmes se

posent. En effet, un même individu pourrait avoir une forte contribution au clustering dans toutes

les représentations, ou bien être un individu atypique i.e. ne devant naturellement contribuer à

la définition d’aucun groupe. Dans les deux cas, la contrainte de sommation à 1 des contributions

conduirait à une distribution uniforme des valeurs de ces contributions. Ceci est gênant du point

de vue de l’interprétabilité de l’apport de chaque individu pour chaque vue, ce qui est un objectif

souhaité de l’approche.

2.3.4 MVADASOM : SOM multi-vues via les distances adaptatives

Toujours parmi les extensions d’algorithmes classiques, [dos S. Dantas and de Carvalho, 2011]

ont développé l’approche batch-SOM (cf. section 1.3.2.2) adaptative dédiée au traitement de

plusieurs matrices de dissimilarités, notée MVADASOM. L’objectif est de trouver une carte autoorganisatrice

unique permettant d’obtenir un clustering des individus multi-représentés en exploitant

simultanément les différentes vues.

Objectif

Les auteurs proposent de modifier dans le critère initial QSOM la mesure de dissimilarité utilisée,

en la remplaçant par une moyenne pondérée des dissimilarités disponibles pour chaque

2.3. APPROCHES CENTRALISÉES 59

représentation, notée Dwk , définie formellement par :

Dwk (xi; ck) =

Xnr

r=1

w(r)

k d(r)(xi; ck) (2.11)

Selon le formalisme des approches centralisées, le critère QMVADASOM s’exprime comme une

somme d’objectifs locaux, le consensus étant imposé par la dissimilarité globale aux centres :

QMVADASOM =

Xnr

r=1

objectif local(r)

avec :

objectif local(r) =

X

xi2X

Xnk

k=1

K(ck; f_(xi))w(r)

k d(r)(xi; ck)

ck 2 X est le k-ième neurone et le même pour toutes les vues et les poids w(r)

k permettent de

donner une importance relative aux neurones selon les représentations.

Ainsi le problème d’optimisation se formalise comme la recherche du minimum du critère

QMVADASOM :

min

c;w

QMVADASOM(c;w) = min

c;w

Xnk

k=1

X

xi2X

K(ck; f_(xi))Dwk (xi; ck)

et la solution optimale s’obtient par un algorithme similaire à celui des SOM.

Algorithme

L’idée est toujours de trouver les nk neurones ou prototypes optimaux, identiques pour toutes

les représentations puisque ceux-ci sont évalués selon la mesure de dissimilarité globale (2.11).

De plus ces prototypes sont choisis non pas dans l’espace dans lequel sont distribués les individus

de X, mais parmi X lui-même, notamment car une description explicite de X dans un espace

vectoriel n’est pas fourni. Ainsi les prototypes correspondent à des individus bien précis de

l’échantillon. L’inertie est pondérée par une fonction K quantifiant toujours, pour un terme

de l’inertie donné (en fixant k et i), une similarité entre le neurone concerné ck et le neurone le

plus représentatif de l’individu concerné f_(xi). Ce dernier est obtenu par:

f_(xi) = arg min

c2fc1;:::;cnk

g

Xnk

k=1

X

xi2X

K(ck; f_(xi))Dwk (xi; ck) (2.12)

Les auteurs proposent d’évaluer la similarité entre deux neurones ci et cj par:

K(ci; cj) =

e􀀀jjci􀀀cj jj21

_(t)2

La similarité K(ck; f_(xi)) est maximale lorsque f_(xi) = ck, ainsi K(ck; f_(xi)) = 1. La variable

_(t) traduisant une température, est fonction du nombre d’itérations souhaité tmax et de l’itération

courante t. Elle permet de faire évoluer les valeurs de similarité plus rapidement, pour des

raisons de convergence.

_(t) = _f

􀀀 _i

_f

_ t

tmax

60 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Algorithme 12 batch-MVADASOM

ENTRÉES : X, nk, G, _i, _f , tmax

SORTIES : C = fC1; :::;Cnkg

1 : t = 1 et initialiser aléatoirement les nk neurones fc1; :::; cnkg

2 : Initialiser w(r)

k = 1; 8k 2 [1::nk]; 8r 2 [1::nr]

3 : Mise à jour de f_(xi); 8xi 2 X selon (2.12)

4 : Mise à jour des neurones ck; 8k 2 [1::nk] selon (2.14)

5 : Mise à jour des w(r)

k ; 8k 2 [1::nk]; 8r 2 [1::nr] selon (2.13)

6 : Si QMVADASOM change t = t + 1 et aller en 3.

7 : Ck = fxi 2 Xjf_(xi) = ckg 8k 2 [1::nk]

_i et _f sont des bornes définies a priori et correspondante respectivement à la température

initiale de la carte, et à la température finale permettant d’atteindre la convergence. La détermination

des neurones les plus représentatifs f_(xi) permet de réévaluer les contributions des

groupes aux différentes vues, qui est traduit par la variable w(r)

k calculée de manière optimale

par l’équation:

w(r)

k

_

=

_Ynr

r=1

X

xi2X

_

K(ck; f_(xi))d(r)(xi; ck)

__ 1

nr

X

xi2X

_

K(ck; f_(xi))d(r)(xi; ck)

_ (2.13)

Ainsi, plus un neurone ck est représentatif de l’ensemble des individus xi 2 X dans une vue

relativement aux autres, plus la valeur de contribution augmente, car le terme d’inertie du dénominateur

est plus faible, à valeur du numérateur identique pour toutes les représentations.

Enfin, les neurones sont mis à jour de manière optimale en calculant l’optimum du critère pour

des valeurs de K(ci; cj) et w(r)

k fixées:

c_

k = arg min

c2X

Xnk

k=1

X

xi2X

K(ck; f_(xi))Dwk (xi; ck) (2.14)

Discussion

L’approche MVADASOM étend ingénieusement les SOM à la problématique des données

multi-vues, lorsque les individus sont représentés par des tableaux relationnels de dissimilarité.

On remarque que le consensus est imposé par la définition du critère objectif, notamment par la

définition de la mesure de dissimilarité globale. Ainsi une carte unique est apprise et il n’est pas

possible de contrôler le compromis entre les clusterings locaux naturels et le désaccord entre les

différentes représentations. Enfin l’autre remarque que l’on peut soulever est sur l’imposition des

paramètres supplémentaires pour garantir la convergence, qui alourdissent le critère. Cependant

ils découlent directement du modèle des SOM. Dans le même esprit, d’autres approches récentes

ont étendu l’approche SOM au cadre des données multi-vues, en optimisant un critère plus

proche dans l’esprit, de l’approche COFC [Grozavu and Bennani, 2010],[Grozavu et al., 2011],

[Mesghouni et al., 2011].

2.3. APPROCHES CENTRALISÉES 61

2.3.5 COMRAF*: champs aléatoires combinatoires de markov

Parmi les approches de clustering de données multi-vues, on trouve également des approches

basées sur des modèles graphiques tels que le modèle COMRAF* [Bekkerman and Jeon, 2007],

qui restreint le modèle plus général COMRAF [Bekkerman et al., 2006].

Modèle

Dans un tel modèle graphique (représenté sous forme de graphe), chaque noeud correspond

soit :

– à l’ensemble des individus X à partitionner ;

– à l’ensemble des propriétés décrivant X dans une vue, une représentation.

Chaque noeud est associé à une variable aléatoire combinatoire (v.a.c.) définie sur l’ensemble

des partitions possibles de l’ensemble correspondant à ce noeud. Chaque arête correspond, quant

à elle, à une mesure d’intéraction entre les deux v.a.cs. qu’elle relie. Dans le cadre général de

COMRAF, on admet qu’il puisse exister des dépendances entre les v.a.cs. associées aux représentations

(identifiées par R(r) 8r 2 [1::nr]). L’objectif est alors de trouver la réalisation (ou

l’instanciation) de chaque variable aléatoire, qui maximise globalement la valeur de probabilité

jointe sur l’ensemble des v.a.cs.. Dans le cadre spécifique qui nous concerne ici, seule la réalisation

de la v.a.c. définie sur l’ensemble des partitions de X nous intéresse, elle sera notée X.

Cela conduit au modèle graphique dans lequel le noeud associé à la v.a.c. X est central et où

chaque réalisation des v.a.cs. R(r) (celles-ci sont seulement observées) apporte une information

permettant de trouver la meilleure réalisation de X. On considère alors toutes les interactions

entre les v.a.cs. R(r) et X ce qui donne un modèle en étoile : COMRAF*(cf. figure 2.2).

Objectif

L’objectif est comme dans la plupart des modèles statistiques, de maximiser la probabilité

jointe des variables du modèle (2.15). Comme les v.a.cs. R(r) sont seulement observées, elles

sont invariantes et leur réalisation correspond à l’ensemble des singletons S(r)

p 8p 2 [1::jRrj]

d’attributs présents dans la vue r. Par exemple, si la vue r représente les individus selon l’ensemble

d’attributs fa; b; cg, alors la v.a.c. R(r) observée a pour réalisation ffag; fbg; fcgg, et on a

S(r)

1 = fag, S(r)

2 = fbg et S(r)

3 = fcg. Ainsi, dans le modèle, seule la réalisation C de la variable

X est alors une variable du problème d’optimisation qui s’exprime :

max

C2P

QCOMRAF = max

C2P

Xnr

r=1

f(r)(C;R(r)) (2.15)

P est l’ensemble des partitions de X et f(r) est une fonction de potentiel mesurant l’intéraction

entre les clusterings C réalisations de X, et R(r). Par exemple, les auteurs proposent de

prendre comme fonction de potentiel, l’information mutuelle entre les variables aléatoires Ck,

correspondant au k-ième groupe du clustering C, et S(r)

p définies sur C et R(r) respectivement.

Pour résumer, par abus de langage, si on considère les fonctions de potentiels comme des

mesures de similarité entre les clusterings associés aux noeuds, alors l’objectif consiste à trouver le

clustering C de X qui maximise sa similarité globalement et relativement à toutes les vues. Ainsi

l’optimum est caractérisé de manière générale comme le MPE, explication la plus probable de

la variable X, correspondant au meilleur clustering C de X, ainsi :

C_M

PE = arg max

C2P

Xnr

r=1

f(r)(C;R(r))

62 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Algorithme

Les auteurs ont proposé un algorithme permettant de mettre à jour le clustering courant de

manière à maximiser le critère objectif. Néanmoins cela ne peut se faire en explorant de manière

exhaustive l’espace de solutions correspondant à l’ensemble des partitions possibles de X

pour des raisons évidentes de complexité. Ainsi, les auteurs ont alors proposé d’effectuer une

recherche locale permettant à partir d’un clustering de trouver le MPE de C. Ils restreignent

l’espace de recherche à un voisinage N(C) correspondant à l’ensemble des clusterings obtenables

en déplaçant un individu d’un groupe de C vers un autre. La règle permettant d’obtenir

un maximum local à partir d’un clustering C est la suivante :

C_ = arg max

C02N(C)

Xnr

r=1

f(r)(C0;R(r)) (2.16)

Le voisinage étant relativement « petit », une recherche exhaustive du meilleur voisin d’un

clustering peut alors être effectuée. L’algorithme 13 est alors complètement dépendant de l’initialisation

du premier clustering et la meta-heuristique de recherche est une simple recherche

en escalade dont le but est de systématiquement trouver, pour un voisinage fixé de la solution

courante, une solution qui maximise le critère objectif posé. La version de COMRAF* relatée ici

considère un nombre de groupes fixé. En effet, ne pas imposer de contraintes sur le nombre de

groupes induit dans le cas général, l’obtention d’une solution dégénérée où l’on obtient comme

partition optimale l’ensemble des singletons de X. Néanmoins les auteurs proposent d’adapter

l’algorithme afin de produire un clustering hiérarchique selon une approche ascendante ou

descendante.

Algorithme 13 COMRAF*

ENTRÉES : X, nk, R, _,

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire de C un clustering de X en nk groupes

2 : Mise à jour des groupes C en utilisant (2.16)

3 : Si C change alors aller en 2

Discussion

COMRAF* est un modèle reposant sur une représentation graphique, ce qui en fait une approche

assez intuitive. Il permet de manipuler un nombre quelconque de représentations pour

les individus. Il peut être étendu en une recherche de partition s’accordant au mieux avec les

diverses vues des données, sans spécifier au préalable un nombre de groupes souhaité. En revanche,

la recherche de la meilleure partition repose sur une procédure de parcours de l’espace

de recherche très locale (le voisinage est très restreint) et la meta-heuristique de recherche associée

ne laisse pas assez de place au mauvais choix de l’initialisation, qui est par ailleur délicate

sans l’utilisation d’informations externes. En effet si l’on devait étendre ce modèle, dans un premier

temps, on pourrait envisager d’encapsuler la recherche de solution par une approche de

type recuit simulé plus robuste dans le cas général. De plus, le modèle, même s’il permet d’utiliser

tout type de fonction de potentiel bien choisie, nécessite de pouvoir définir des densités de

probabilités adaptées entre ces vues, or ceci n’est pas toujours possible. Il peut arriver que certaines

représentations n’aient que des variables (ou propriétés) indépendantes pour toute paire

d’individus, auquel cas les lois de probabilités jointes entre chacune de ces variables et les individus

n’auraient pas grand sens. Les auteurs proposent de résoudre ces cas par l’utilisation du

2.3. APPROCHES CENTRALISÉES 63

modèle plus général COMRAF en cherchant en plus du clustering des individus de X, un clustering

de ces représentations afin de former des groupes de propriétés adaptés. L’astuce consiste à

décomposer le modèle COMRAF en une séquence de modèles COMRAF* supposée équivalente

(Fig. 2.2).

X

R

R

R(1)

(3)

(2)

X

R

R

R

=

(1)

(3)

(2)

X

R

R(1)

+ (2)

X

R

R

R(1)

(2)

(3)

FIGURE 2.2 — Un modèle COMRAF où les individus de X sont décrits par 3 représentations. La première

figure représente un modèle en étoile COMRAF*. Dans la suite, les 3 autres figures représente un

modèle COMRAF dans lequel une dépendance est ajoutée entre la v.a.c.R(1) et la v.a.c.R(2). On cherche

la réalisation de X, et de R(2) v.a.cs. correspondantes à un clustering de X, et un clustering de R(2) tels

que l’information mutuelle de ceux-ci entre eux et avec chaque autre représentations dont elles sont dépendantes

soit maximal. Le premier modèle général COMRAF (deuxième figure) se décompose en une

séquence de deux modèles COMRAF*.

2.3.6 COEM : estimation d’un modèle de mélange pour données multi-vues

Toujours parmi les approches statistiques, cette fois génératives, [Bickel and Scheffer, 2005]

ont proposé d’étendre le modèle de mélange au cadre de données multi-vues. Ils proposent une

variante collaborative, notée COEM, de l’algorithme EM pour l’estimation des paramètres d’un

modèle de mélange de lois expliquant la génération de l’ensemble d’individus multi-représentés.

Modèle

À l’instar d’EM, le modèle considéré est toujours le modèle de mélange, mais cette fois nous

supposons l’existence de nr modèles de mélanges f(r) indépendants et de nk composantes chacune

:

f(r)(Xi;_(r)) =

Xnk

k=1

_(r)

k f(r)

k (Xi; _(r)

k ) (2.17)

L’objectif est alors d’estimer les paramètres _ = f_(r)gr2[1::nr] expliquant au mieux la génération

de l’ensemble d’individus X. Les auteurs proposent d’estimer ces paramètres via l’application de

l’algorithme EM indépendamment dans chaque représentation en contrôlant la recherche d’une

solution unique de clustering en s’appuyant sur la recherche de consensus entre les différents

modèles locaux.

Objectif

La fonction objectif à maximiser, qui combine linéairement les espérances des log-vraisemblances

locales de toutes les vues, est pénalisée par un terme de désaccord _(_) entre les différentes

64 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

représentations :

QCOEM(_;_􀀀) =

Xnr

r=1

Q(r)

EM(_(r);_􀀀(r);X; nk) 􀀀 __(_)

où selon le paradigme des approches multi-vues centralisées (2.1) :

objectif local(r) = Q(r)

EM(_(r);_􀀀(r);X; nk)

=

X

xi2X

Xnk

k=1

z(r)

ik log(_(r)

k f(r)

k (x(r)

i ; _(r)

k ))

désaccord(_) = _(_)

La fonction _ mesure le désaccord entre les clusterings en construction dans toutes les vues.

Ces clusterings _ sont décrits par les paramètres locaux _(r) = (_(r); _(r)). Le désaccord est alors

formulé par :

_(_) =

1

nr 􀀀 1

X

r6=r0

X

xi2X

Xnk

k=1

f(r)(Zi = kjXi = xi;_􀀀(r)) log

f(r)(Zi = kjXi = xi;_(r))

f(r0)(Zi = kjXi = xi;_(r0))

Le critère peut être simplifié en réinjectant le terme de désaccord dans le premier terme

pour faire apparaître une moyenne pondérée sur les différentes représentations de critères de

vraisemblance locaux. L’objectif peut alors être formulé comme la maximisation de ce critère :

max

_

QCOEM(_;_􀀀) = max

_

Xnr

r=1

n(r)

Xk

k=1

X

xi2X

z(r)

ik_ log(_(r)

k f(r)

k (x(r)

i ; _(r)

k ) (2.18)

z(r)

ik_ peut être vue comme une nouvelle estimation des valeurs de probabilités a posteriori pour

la vue r, et est définie comme une moyenne des valeurs de probabilités a posteriori locales :

z(r)

ik_ = f(r)(Zi = kjXi = xi;_(r); _)

= (1 􀀀 _)z(r)

ik +

_

nr 􀀀 1

Xnr

r=1

r6=r

z(r)

ik (2.19)

Le critère simple vue dans r, Q(r)

EM, utilise les individus de l’échantillon X des données, les variables

cachées Zi et les paramètres des lois _(r) à estimer. Dans l’expression du critère QCOEM,

_ ajuste l’importance du désaccord _(_) dans le processus d’optimisation. Ce désaccord est

proche d’une divergence de Kullback-Leibler (1.27) entre les distributions de probabilités a posteriori

(courantes et précédentes) sur toutes les paires de vues, ce qui modélise d’une certaine

manière un écart entre ces distributions que les auteurs proposent de réduire.

Algorithme

L’algorithme 14 alterne à la manière de EM une étape E de calcul des probabilités a posteriori

puis une étape M d’estimation des meilleurs paramètres connaissant ces probabilités. La

recherche des meilleurs estimateurs des paramètres _ est réalisée de façon similaire au cadre

2.3. APPROCHES CENTRALISÉES 65

EM classique. L’idée est de parcourir les différentes vues et de chercher localement les paramètres

optimaux _(r)_

= f_(r)

k gk2[1::nk] relativement aux valeurs de probabilités a posteriori globales

z(r)

ik_ :

__ = arg max

_

X

xi2X

Xnk

k=1

z(r)

ik_ log(_(r)

k f(r)

k (x(r)

i ; _(r)

k )) (2.20)

Les valeurs de probabilités a posteriori sont ré-estimées, non de manière optimale, mais

reposent sur les estimateurs locaux obtenus par la règle classique de EM :

z(r)

ik =

_(r)

k f(r)

k (x(r)

i ; _(r)

k )

Xnk

l=1

_(r)

l f(r)

k (x(r)

i ; _(r)

l )

(2.21)

Enfin, les valeurs de probabilités a priori sont également ré-estimées de manière indépendante

de la nature des composantes du mélange :

_(r)

k =

1

nrn

Xnr

r=1

X

xi2X

z(r)

ik (2.22)

En règle générale le résultat produit par la répétition des deux étapes précédentes est tel

qu’un désaccord nul ne puisse être trouvé. Ainsi, pour certains individus, on ne peut décider

de leur appartenance à un groupe particulier. Ils peuvent appartenir à des groupes différents

dans des vues différentes. Les auteurs proposent alors à la fin de l’algorithme d’appliquer une

nouvelle règle MAP (maximum a posteriori) en observant les différents résultats locaux :

xi 2 Ck , k = arg max

k02[1::nk]

zik0 =

Ynr

r=1

_(r)

k0 f(r)

k0 (x(r)

i ; _(r0)

k )

Xnk

l=1

Ynr

r=1

_(r)

l f(r)

k (x(r)

i ; _(r)

l )

(2.23)

Algorithme 14 COEM

ENTRÉES : X, nk, ff(r)gr2[1::nr]

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des _(r) 8r 2 [1::nr]

2 : Étape E : Mise à jour des z(r)

ik en utilisant (2.21)

3 : Mise à jour des z(r)

ik_ en utilisant (2.19)

4 : Étape M : Mise à jour des _(r)

k en utilisant (2.20)

5 : Mise à jour des _(r)

k en utilisant (2.22)

6 : Si QCOEM change alors aller en 2

7 : Ck = fxi 2 Xjzik = max

k02[1::nk]

zik0g; 8k 2 [1::nk]

Discussion

66 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Les auteurs donnent une formulation de QCOEM par une somme de log-vraisemblances sur

chaque vue où les probabilités a posteriori sont obtenues par des moyennes pondérées des probabilités

a posteriori locales. Malheureusement, en utilisant la nouvelle expression (cette fois

intuitive) pour le calcul des probabilités a posteriori le critère ne peut pas être maximisé dans

son ensemble sauf en annulant la contribution du désaccord i.e. _ ! 0 et ainsi en ne tenant plus

compte de la collaboration à travers les itérations. Notons qu’une affectation finale au groupe

est obtenue à partir des paramètres du modèle collaboratif appris.

2.4 Contributions

2.4.1 Motivation

L’approche proposée COFKM (Collaborative Fuzzy K-means) comme réponse à la problématique

du clustering multi-vues offre une solution aux problèmes pratiques et théoriques rencontrés

dans la plupart des approches de l’état de l’art. L’approche est de type discriminative et se

fonde sur les développements effectués sur COEM (cf. section 2.3.6) dans l’expression du critère

objectif, puis sur COFC (cf. section 2.3.2) dans la recherche d’une solution convergente sans artifice

(tels que l’annulation de la recherche de consensus dans COEM). Pour palier au problème

de la convergence COFKM se positionne dans le cadre flou de FKM (cf. section 1.4.1) ; un nouveau

terme de désaccord (inspiré de COEM) est proposé pour rendre le modèle plus simple à

paramétrer et le processus d’apprentissage plus intuitif. Enfin, le paramètre _ utilisé par Bickel &

Sheffer pour assurer la convergence est conservé dans COFKM car il permet de lier l’expression

du critère aux différents paradigmes du clustering multi-vues : fusion a priori, a posteriori et

dans le processus. Dans un second temps, l’objectif fixé dans le développement de l’approche

COFKM sera étendu pour la prise en compte de données relationnelles i.e. lorsque les données

sont représentées par des matrices de proximité entre individus : similarité ou dissimilarité. L’extension

COKFKM est telle qu’elle offre les mêmes garanties de convergence que le modèle de

base COFKM. Enfin ces deux nouvelles approches sont testées sur des données standard afin de

les valider expérimentalement.

2.4.2 COFKM : clustering flou multi-vues

L’approche proposée est une extension des K-moyennes floues (cf. section 1.4.1). L’objectif

est de produire un clustering global en intégrant pendant la phase de construction des groupes,

les différentes représentations des individus.

Objectif

Pour rappel, le critère objectif de FKM à minimiser correspond à une inertie pondérée :

QFKM(c; u) =

Xnk

k=1

X

xi2X

u_

ikjjxi 􀀀 ckjj22

avec

Xnk

k=1

uik = 1 ^ uik _ 0 8xi 2 X.

Les variables du problème sont les centres de groupes (c) et les degrés d’appartenance des

individus xi aux groupes (u). Partant d’une solution aléatoire des centres, l’expression du lagrangien

du problème et la dérivation des conditions du premier ordre associées au problème

permettent d’établir les mises à jour optimales des variables connaissant une solution courante.

2.4. CONTRIBUTIONS 67

Ces mises à jours sont données par :

c_

k =

X

xi2X

u_

ikxi

X

xi2X

u_

ik

; u_

ik =

jjxi 􀀀 ckjj2=(1􀀀_)

2

Xnk

k0=1

jjxi 􀀀 ck0 jj2=(1􀀀_)

2

Soient c et u l’ensemble des centres et degrés tels que :

c = fc(r)gr2[1::nr] avec c(r) = fc(r)

1 ; : : : ; c(r)

nk g ;

u = fu(r)gr2[1::nr] avec u(r) = fu(r)

ik g xi2X

k2[1::nk]

.

Suivant le formalisme général des approches de clustering multi-vues centralisées, on cherche

à optimiser un critère global tel que la solution optimale soit une solution de compromis entre

de bonnes solutions locales dans chaque vue :

QCOFKM(c; u) =

Xnr

r=1

objectif local(r) + désaccord(_) (2.24)

Soit Q(r)

FKM le critère objectif de FKM dans la vue r, le critère objectif multi-vues proposé est

défini par :

objectif local(r) = Q(r)

FKM

désaccord(_) = _(_)

Le désaccord _(_) permet de mesurer l’écart entre les clusterings locaux déterminés complètement

par les degrés d’appartenances locaux, et les centres de groupes locaux. L’expression

du désaccord peut alors être formulé par _(c; u) défini par :

_(c; u) =

1

nr 􀀀 1

Xnr

r=1

Xnr

r=1

r6=r

X

xi2X

Xnk

k=1

_

(u(r)

ik

_

􀀀 u(r)

ik

_

)jjx(r)

i 􀀀 c(r)

k jj22

_

Lorsque les clusterings locaux sont parfaitement similaires i.e. :

8xi 2 X 8k 2 [1::nk] 8(r; r) 2 [1::nr]2; u(r)

ik = u(r)

ik

le terme _(c; u) est nul. Dans cette expression, on somme les différences entre les clusterings

obtenues dans r et r, 8(r; r) 2 [1::nr]2. L’expression précédente peut-être écrite comme une

somme sur les paires (r; r) telles que r > r :

_(c; u) =

1

nr 􀀀 1

Xnr

r=1

Xr􀀀1

r=1

X

xi2X

Xnk

k=1

_

(u(r0)

ik

_

􀀀 u(r)

ik

_

)(jjx(r)

i 􀀀 c(r)

k jj22

􀀀 jjx(r)

i 􀀀 c(r)

k jj22

)

_

Le terme de désaccord pénalise le critère. Il peut être considéré comme une divergence entre les

organisations puisque plus (u(r)

ik

_

􀀀 u(r)

ik

_

) est petit, plus faible est le désaccord.

Afin de conserver des inerties (Q(r)

FKM) comparables entre les différentes vues, il est nécessaire

de procéder à une normalisation des données :

– chaque descripteur de la vue r est réduit de telle sorte à obtenir une variance unitaire ;

– soit n(r)

p le nombre de descripteurs de la vue r, un poids égal à n(r)

p

􀀀1=2

est associé à

chaque descripteur appartenant à la vue r, de manière à annuler l’impact du déséquilibre

du nombre de dimensions entre vues.

68 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

La normalisation appliquée implique que jjx(r)

i 􀀀 c(r)

k jj22

et jjx(r)

i 􀀀 c(r)

k jj22

sont comparables.

jjx(r)

i 􀀀c(r)

k jj22

étant inversement proportionnel à u(r)

ik , on peut considérer le terme (jjx(r)

i 􀀀c(r)

k jj22

􀀀

jjx(r)

i 􀀀 c(r)

k jj22

) comparable à (u(r)

ik 􀀀 u(r)

ik ). Ainsi, le désaccord peut-être vu comme une distance

entre les clusterings locaux représentés par fu(r)g et fu(r)g. L’avantage est que notre terme de

désaccord a le même ordre de grandeur que l’inertie locale, ainsi la somme de ces expressions

peut être considérée comme un critère global cohérent QCOFKM.

QCOFKM(c; u) =

 

Xnr

r=1

Q(r)

FKM

!

+ __(c; u) (2.25)

=

0

@

Xnr

r=1

X

xi2X

Xnk

k=1

(u(r)

ik

_

jjx(r)

i 􀀀 c(r)

k jj22

)

1

A + __(c; u)

=

Xnr

r=1

X

xi2X

Xnk

k=1

(u(r)

ik_jjx(r)

i 􀀀 c(r)

k jj22

)

u(r)

ik_ = (1 􀀀 _)u(r)

ik

_

+

_

nr 􀀀 1

(

Xnr

r=1

r6=r

u(r)

ik

_

) (2.26)

L’objectif est alors la minimisation de ce critère d’inertie pénalisé QCOFKM sous les contraintes

que chaque u(r) forme une partition floue :

min

c;u

QCOFKM(c; u) = min

c;u

Xnr

r=1

Xnk

k=1

X

xi2X

u(r)

ik_jjx(r)

i 􀀀 c(r)

k jj22

s:t:

Pnk

k=1 u(r)

ik = 1 8xi 2 X; 8r 2 [1::nr] (cs1)

u(r)

ik _ 0 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] (cs2)

(2.27)

Algorithme

Comme dans la majorité des approches discriminatives basées sur un critère objectif, l’algorithme

permettant d’en trouver une solution optimale découle directement de la résolution du

problème d’optimisation. Ainsi, dans le cadre de l’optimisation sous contraintes, on considère le

lagrangien L associé au problème :

L(c; u; _) = QCOFKM +

Xnr

r=1

X

xi2X

_(r)

i (

Xnk

k=1

u(r)

ik 􀀀 1)

_ = f_(r)

i g xi2X

r2[1::nr]

sont les multiplicateurs de lagrange associés aux contraintes. Si (c_; u_) est

un optimum (local), alors il existe un unique __ tel que c_, u_ et __ satisfont les conditions du

premier ordre suivantes : 8>>>>>>><

>>>>>>>:

@L(c_; u_; __)

@c(r)

k

= 0 (cond 1)

@L(c_; u_; __)

@u(r)

ik

= 0 (cond 2)

@L(c_; u_; __)

@_(r)

i

_ = 0 (cond 3)

2.4. CONTRIBUTIONS 69

Les différentes dérivées partielles issues de (cond 1), (cond 2) et (cond 3) mènent respectivement

aux expressions:

@L(c_; u_; __)

@u(r)

ik

= (1 􀀀 _)_u(r)

ik

_(_􀀀1)

jjx(r)

i 􀀀 c(r)

k

_

jj22

+

_

nr 􀀀 1

_u(r)

ik

_(_􀀀1)

0

B@

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

1

CA

􀀀 _(r)

i

_

@L(c_; u_; __)

@c(r)

k

= 􀀀2

X

xi2X

_

u(r)

ik_

_

(x(r)

i 􀀀 c(r)

k

_

)

_

@L(c_; u_; __)

@_(r)

i

_ =

Xnk

k=1

u(r)

ik

_

􀀀 1

Comme pour FKM, l’algorithme (cf. Algorithme 15) propose, partant d’une solution initiale

(c; u), de construire progressivement une solution meilleure au sens de l’objectif QCOFKM, en

alternant consécutivement deux étapes d’optimisation :

– le calcul des centres optimaux c(r)

k

_

à partir des degrés u(r)

ik ;

– le calcul des degrés optimaux u(r)

ik

_

à partir des centres c(r)

k .

Les suites ainsi construites convergent vers une solution localement optimale de QCOFKM. L’équation

@L(c_; u_; __)

@_(r)

i

_ = 0 redonne la contrainte :

@L(c_; u_; __)

@_(r)

i

_ = 0 ,

Xnk

k=1

u(r)

ik

_

= 1 (2.28)

Les équations @L(c_; u_; __)

@c(r)

k

= 0 et @L(c_; u_; __)

@u(r)

ik

= 0 impliquent respectivement :

c(r)

k

_

=

X

xi2X

(u(r)

ik_

_

x(r)

i )

X

xi2X

u(r)

ik_

_ (2.29)

u(r)

ik_

_

=

_

_

_(r)_

_1=(1􀀀_)_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k

_

jj22

(2.30)

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

_1=(1􀀀_)

L’équation (2.29) à condition de connaître la valeur courante de u, est sous forme close et

correspond à la formule de mise à jour des centres. Cette expression est la même que celle de

FKM où les degrés d’appartenance servant à pondérer le calcul du barycentre sont les degrés

collaboratifs u(r)

ik_ et non les degrés locaux. En utilisant la contrainte présente dans (2.28), on

70 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

peut déterminer la valeur de _(r)_ :

Xnk

k=1

u(r)

ik

_

= 1

,

Xnk

k=1

0

BB@

 

_

_(r)

i

!1=(1􀀀_)

0

B@

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

1

CA

1=(1􀀀_)

1

CCA

= 1

d’où

_(r)

i

_1=(1􀀀_)

= _1=(1􀀀_)

Xnk

k=1

_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

_1=(1􀀀_)

En réintroduisant cette expression dans (2.30), on est en mesure de déterminer seulement à

partir de la valeur des centres, les nouveaux degrés d’appartenance :

u(r)

ik

_

=

_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

_1=(1􀀀_)

Xnk

k0=1

_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k0

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k0

_

jj22

_1=(1􀀀_)

(2.31)

Finalement, partant d’une initialisation aléatoire des centres c(r)

k , on calcule, à chaque étape :

– les valeurs optimales de u(r)

ik

_

pour des valeurs fixées de c(r)

k ;

– les valeurs optimales de c(r)

k

_

pour des valeurs fixées de u(r)

ik .

Ainsi, par cet algorithme, la décroissance du critère QCOFKM est garantie, ce qui assure la convergence

(vers un optimum local).

Construction de la partition finale

La méthode proposée assure l’obtention d’un optimum local du critère QCOFKM. Cependant,

même si l’un des objectifs du critère compromis est d’obtenir pour chaque individu des profils

d’appartenance aux groupes semblables dans toutes les vues, nous ne pouvons garantir que

cette condition soit vérifiée par l’optimalité de la solution. Ainsi les centres de groupes et les

degrés d’appartenance optimaux sont en général différents selon les vues. Le but étant d’obtenir

un résultat de clustering unique, les résultats locaux dans chaque vue sont fusionnés au travers

d’une règle d’affectation globale, permettant d’obtenir une partition stricte des individus. Cette

règle nécessite de calculer, pour chaque individu xi 2 X et chaque groupe Ck 2 C, un degré

d’appartenance global, correspondant à une moyenne géométrique des degrés d’appartenance

locaux :

uik =

 

Ynr

r=1

u(r)

ik

!1=nr

(2.32)

L’individu xi est alors affecté au groupe Ck maximisant uik :

xi 2 Ck , k = arg max

k02[1::nk]

uik0

2.4. CONTRIBUTIONS 71

Cette règle, ainsi que le critère objectif lui-même, requiert l’association de chaque groupe

simultanément dans toutes les vues. Dans ce contexte, un même groupe Ck 2 C est identifié

par son indice k 2 [1::nk] dans toutes les vues. Ainsi, les prototypes locaux c(r)

k se réfèrent au

même et unique groupe Ck. La consistance de cette identification est suggérée par la façon

dont sont initialisées les variables. L’initialisation consiste à choisir aléatoirement nk individus

comme centres de tous les groupes de même indice. Ainsi, pour tout k 2 [1::nk], les centres ckr

correspondent à toutes les vues du même individu. Cependant, le processus de clustering peut

entraîner une dérive de cette association.

Algorithme 15 COFKM

ENTRÉES : X, nk

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des c(r)

k sous la contrainte :

J 9xi 2 X; (c(r)

k = x(r)

i ) ^ (c(r0)

k = x(r0)

i ) K

2 : Mise à jour des u(r)

ik en utilisant (2.31)

3 : Mise à jour des c(r)

k en utilisant (2.29)

4: Si QCOFKM change alors aller en 2

5: Ck = fxi 2 Xjuik = max

k02[1::nk]

uik0g; 8k 2 [1::nk]

Discussion

L’approche proposée COFKM est une généralisation :

– de FKM appliqué à la concaténation des différentes représentations, ce qui correspond à

un mécanisme de fusion a priori;

– d’un cas simple de fusion a posteriori où FKM est appliqué simultanément et indépendamment

dans toutes les représentations avant d’être concilié par la procédure d’affectation.

Généralisation d’une approche a priori. Considérons le critère QCOFKM pour lequel la valeur

de _ est fixée : _ = nr􀀀1

nr

. Le critère peut alors être réécrit :

QCOFKM(c; u) =

Xnr

r=1

Xnk

k=1

X

xi2X

u(r)

ik_jjx(r)

i 􀀀 c(r)

k jj22

=

Xnr

r=1

Xnk

k=1

X

xi2X

_

(1 􀀀 _)u(r)

ik

__

+

_

nr 􀀀 1

(

Xnr

r=1

r6=r

u(r)

ik

__

)

_

jjx(r)

i 􀀀 c(r)

k jj22

=

Xnr

r=1

Xnk

k=1

X

xi2X

_

(1 􀀀

nr 􀀀 1

nr

)u(r)

ik

__

+

(nr 􀀀 1)

nr(nr 􀀀 1)

Xnr

r=1

r6=r

u(r)

ik

__

)

_

jjx(r)

i 􀀀 c(r)

k jj22

=

Xnr

r=1

Xnk

k=1

X

xi2X

_

1

nr

Xnr

r0=1

u(r0)

ik

__

_

jjx(r)

i 􀀀 c(r)

k jj22

72 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

La valeur de u(r0)

ik

_

peut être déterminée, toujours selon (2.31) et restreint à _ = nr􀀀1

nr

:

u(r)

ik

_

=

_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

_1=(1􀀀_)

Xnk

k0=1

_

(1 􀀀 _)jjx(r)

i 􀀀 c(r)

k0

_

jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k0

_

jj22

_1=(1􀀀_)

=

_

1

nr

jjx(r)

i 􀀀 c(r)

k

_

jj22

+

1

nr

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k

_

jj22

_1=(1􀀀_)

Xnk

k0=1

_

1

nr

jjx(r)

i 􀀀 c(r)

k0

_

jj22

+

1

nr

Xnr

r=1

r6=r

jjx(r)

i 􀀀 c(r)

k0

_

jj22

_1=(1􀀀_)

et en utilisant le fait que la somme des carrés des distances aux centres locales correspond aux

carrés des distances aux centres dans l’espace concaténé :

Xnr

r=1

jjx(r)

i 􀀀 c(r)

k

_

jj2 = jjxi 􀀀 c_

kjj2

xi correspond à la concaténation des vecteurs x(r)

i . Les degrés optimaux se réécrivent alors :

u(r)

ik

_

=

jjxi 􀀀 c_

kjj22

Xnk

k0=1

jjxi 􀀀 ck0

_jj22

(2.33)

et ainsi u(r)

ik

_

= u(r0)

ik

_

8xi 2 X; 8r 2 [1::nr]; 8k 2 [1::nk]. Les degrés locaux u(r)

ik

_

sont donc

indépendants de r et peuvent être notés uik.

Le critère QCOFKM se réécrit dans ce contexte :

QCOFKM(c; u) =

Xnr

r=1

Xnk

k=1

X

xi2X

u_

ikjjx(r)

i 􀀀 c(r)

k jj22

=

Xnk

k=1

X

xi2X

u_

ikjjxi 􀀀 ckjj22

Finalement, on peut voir COFKM comme une généralisation de FKM appliquée à la concaténation

des représentations vectorielles, où l’on peut forcer l’obtention d’une solution correspondant

à un consensus en choisissant une valeur _ < (nr􀀀1)

nr

.

Généralisation d’une approche a posteriori. Soit _ = 0 le critère QCOFKM peut alors être

réécrit comme une somme sur toutes les vues des critères FKM classiques :

QCOFKM_=0(c; u) =

 

Xnr

r=1

Q(r)

FKM

!

=

Xnr

r=1

X

xi2X

Xnk

k=1

u(r)

ik

_

jjx(r)

i 􀀀 c(r)

k jj22

2.4. CONTRIBUTIONS 73

Les mises à jour optimales des variables du problème sont alors données par :

c(r)

k

_

=

X

xi2X

u(r)

ik

_

x(r)

i

X

xi2X

u(r)

ik

_ ; u(r)

ik

_

=

jjx(r)

i 􀀀 c(r)

k jj2=(1􀀀_)

2

Xnk

k0=1

jjx(r)

i 􀀀 ___________c(r)

k0 jj2=(1􀀀_)

2

(2.34)

Le critère est la somme des inerties locales, qui sont optimisées de manières indépendantes

par l’algorithme FKM, les mises à jour étant identiques modulo un renommage des variables.

La fusion a posteriori est réalisée par notre règle d’affectation finale (2.32). Le formalisme collaboratif

proposé COFKM est alors une généralisation de la fusion a posteriori, en choisissant

_ = 0.

Comparaison avec l’état de l’art. Les approches auxquelles nous nous comparons tant au niveau

de l’expression du critère qu’au niveau expérimental sont les approches COFC et COEM.

L’inconvénient majeur de COEM (cf. section 2.3.6) réside en la non convergence de l’algorithme

proposé pour trouver les meilleurs estimateurs des paramètres _. Pour assurer cette convergence,

[Bickel and Scheffer, 2005] proposent de faire décroître le paramètre _ jusqu’à 0, ce qui

correspond à l’optimisation du critère local indépendamment dans toutes les vues et tend à revenir

à un mécanisme de fusion a posteriori. COEM peut ainsi être vu comme une approche en

deux temps :

1. Durant la première phase (_ > 0) les paramètres sont estimés dans le but d’accroître le

consensus mais sans garanties de convergence.

2. Lors de la seconde phase (_ = 0) la valeur du critère global converge par convergence

locale dans toutes les vues, mais le terme de pénalité n’est pas considéré.

Le modèle COFKM est défini de telle sorte que quelque soit la valeur de _, la convergence

est assurée puisque le critère global décroît à chacune des étapes de l’algorithme.

En ce qui concerne l’approche COFC, celle-ci offre de bonnes propriétés de convergence,

mais souffre de deux lacunes au regard de FKM qu’elle vise à étendre :

– un manque de généricité dans le sens où il n’est plus possible de moduler la recherche de

solution grâce au paramètre de flou _ de FKM.

– un manque d’interprétabilité des équations de mise à jour des prototypes et des degrés

d’appartenance.

La contribution COFKM intègre le paramètre de flou et généralise complètement l’algorithme

FKM pour le traitement de données multi-représentées par des représentations vectorielles. Les

procédures de mises à jour des variables sont intuitives et s’interprètent bien de sorte à faire

ressortir la recherche d’un compromis entre les différentes vues.

2.4.3 COKFKM : clustering flou multi-vues à noyaux

COFKM généralise le modèle classique des K-moyennes floues mais se voit toujours restreint

à l’utilisation de la métrique euclidienne. En particulier, ce modèle ne s’applique que dans le cas

où les données sont décrites par des vecteurs d’attributs numériques. L’objectif COKFKM, objet

de cette section est d’étendre COFKM pour le rendre applicable dans le cas où les données sont

représentées par plusieurs matrices de proximité. Cette extension est réalisée grâce à l’utilisation

de l’astuce du noyau dans un cadre d’apprentissage non supervisé.

Astuce du noyau

74 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

L’astuce du noyau a été appliquée de nombreuses fois pour des utilisations variées. L’idée est

de réaliser une projection de l’ensemble d’individus d’un espace d’origine X à un nouvel espace

H afin de faciliter la recherche d’un meilleur clustering de X. L’objectif est double, l’utilisation

d’un noyau permet :

– d’augmenter les chances de capturer les vraies classes des individus, lorsque ceux-ci ne

sont pas linéairement séparables dans l’espace de représentation d’origine. Cela permet

d’améliorer les performances des approches traditionnelles de clustering lorsque l’on peut

les évaluer par rapport à une classification de référence.

– de pouvoir étendre tout type d’approche fondée sur la distance euclidienne, qu’elle permet

de redéfinir par la définition d’une matrice de proximité.

Soit _ la fonction telle que _ : X 7! H. _(xi) est la projection de xi dans H. La distance

euclidienne dans l’espace H s’exprime par :

jj_(xi) 􀀀 _(xj)jj22

= h_(xi); _(xi)i 􀀀 2h_(xi); _(xj)i + h_(xj); _(xj)i

L’astuce consiste alors à interpréter le produit scalaire h_(xi); _(xj)i comme une mesure de

similarité. Ainsi si on a à disposition une matrice K telle que Kij = h_(xi); _(xj)i ou un moyen

de construire K à partir de X, alors on peut complètement redéfinir la distance euclidienne

dans H et appliquer les algorithmes de clustering dans cet espace tout en conservant les bonnes

propriétés de ceux-ci :

jj_(xi) 􀀀 _(xj)jj22

= Kii 􀀀 2Kij + Kjj

Il n’est alors pas nécessaire de calculer explicitement _(xi) 8xi 2 X pour calculer cette

distance.

Dans FKM, le critère objectif est modifié de sorte à réaliser le clustering de X dans H. Ainsi

la partition floue solution est un optimum du critère objectif :

QKFKM =

Xnk

k=1

X

xi2X

u_

ikjj_(xi) 􀀀 ckjj22

Les valeurs optimales des variables ck et uik sont données par :

c_

k =

X

xi2X

u_

ik_(xi)

X

xi2X

u_

ik

; u_

ik =

jj_(xi) 􀀀 ckjj2=(1􀀀_)

2

Xnk

k=1

jj_(xi) 􀀀 ckjj2=(1􀀀_)

2

Il a été montré que même si les centres optimaux ne peuvent pas être calculés (car _ est

en général inconnue), on peut optimiser le critère QKFKM grâce à K sous réserve que K soit

semi-définie positive. On peut alors calculer le carré de la distance euclidienne entre _(xi) et

ck :

jj_(xi) 􀀀 ckjj22

= Kii 􀀀 2

X

xj2X

u_

jkKij

X

xj2X

u_

jk

+

X

xj2X

X

xl2X

u_

jku_

lkKjl

(

X

xj2X

u_

jk)2

Les centres sont implicitement déplacés dans l’espace de projection lors du calcul des nouvelles

distances (dépendantes des nouveaux estimateurs des degrés d’appartenances). On peut

alors transposer ce résultat à l’approche COFKM. On pose dans la suite :

c = fc(r)gr2[1::nr] avec c(r) = fc(r)

1 ; : : : ; c(r)

nk g ;

u = fu(r)gr2[1::nr] avec u(r) = fu(r)

ik g xi2X

k2[1::nk]

.

2.4. CONTRIBUTIONS 75

Objectif

Soit _ = f_(r)gr2[1::nr] telle que _(r) : X(r) 7! H(r), le critère QCOFKM peut alors être réécrit en

QCOKFKM pour obtenir une version à noyaux :

QCOKFKM =

 

Xnr

r=1

Q(r)

KFKM

!

+ __(c; u) (2.35)

=

Xnr

r=1

X

xi2X

Xnk

k=1

u(r)

ik

_

jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

+ __(c; u)

avec

_(c; u) =

1

nr 􀀀 1

Xnr

r=1

r6=r

X

xi2X

Xnk

k=1

(u(r)

ik

_

􀀀 u(r)

ik

_

)jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

A l’instar de COFKM, le clustering multi-vues par COKFKM peut également être exprimé par

le problème d’optimisation :

min

c;u

QCOKFKM(c; u) = min

c;u

Xnr

r=1

Xnk

k=1

X

xi2X

u(r)

ik_jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

s:t:

Pnk

k=1 u(r)

ik = 1 8xi 2 X; 8r 2 [1::nr] (cs1)

u(r)

ik _ 0 8xi 2 X; 8k 2 [1::nk]; 8r 2 [1::nr] (cs2)

(2.36)

avec

u(r)

ik_ = (1 􀀀 _)u(r)

ik

_

+

_

nr 􀀀 1

Xnr

r=1

r6=r

u(r)

ik

_

(2.37)

Algorithme

L’algorithme permettant de résoudre ce problème d’optimisation est dérivé directement du

critère à la manière de COFKM. Il s’agit d’un processus qui, partant d’une initialisation particulière

des prototypes des groupes, alterne une mise à jour optimale des degrés d’appartenance

des individus aux groupes, puis une mise à jour des prototypes des groupes (cf. algorithme 16).

Les degrés d’appartenance sont réévalués de manière optimale de la même manière que dans

COFKM mais les distances euclidiennes utilisées sont associées aux espaces H(r) :

u(r)

ik

_

=

_

(1 􀀀 _)jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

_1=(1􀀀_)

Xnk

k=1

_

(1 􀀀 _)jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

+

_

nr 􀀀 1

Xnr

r=1

r6=r

jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

_1=(1􀀀_)

(2.38)

L’équation de mise à jour des prototypes des groupes est également connue et consiste à

calculer les centres de masse des différents groupes :

c(r)

k

_

=

X

xi2X

u(r)

ik_

_

_(r)(x(r)

i )

X

xi2X

u(r)

ik_

_

76 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

Néanmoins, comme dans toute approche à noyaux, la projection _(r)(x(r)

i ) n’est pas calculable

ou il n’est pas souhaitable de la calculer, la mise à jour ne peut avoir lieu explicitement.

Ainsi, après avoir déterminé les valeurs de u(r)

ik_ par (2.37), les centre optimaux peuvent être

déterminés implicitement par la réévaluation des distances d(r)(xi; ck

_) = jj_(r)(x(r)

i ) 􀀀 c(r)

k

_

jj2

dans H(r) :

d2 (r)(xi; ck

_) = jj_(r)(x(r)

i ) 􀀀 c(r)

k

_

jj22

(2.39)

= K(r)

ii 􀀀 2

X

xj2X

u(r)

jk_

_

K(r)

ij

X

xj2X

u(r)

jk_

_ +

X

xj2X

X

xl2X

u(r)

jk_

_

u(r)

ik_

_

K(r)

jl

(

X

xj2X

u(r)

jk_

_

)2

Une fois le processus itératif terminé, des degrés d’appartenance aux groupes globaux uik

sont calculés, à la manière de COFKM, selon l’équation (2.32)

Algorithme 16 COKFKM

ENTRÉES : X, nk, fK(r)gr2[1::nr]

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des c(r)

k sous la contrainte :

J 9xi 2 X; (c(r)

k = x(r)

i ) ^ (c(r)

k = x(r)

i ) K

2 : Mise à jour des u(r)

ik

_

en utilisant (2.38)

3 : Mise à jour des u(r)

ik_

_

en utilisant (2.37)

4 : Mise à jour des d(r)(xi; ck

_) par (2.39)

5 : Si QCOFKM change alors aller en 2

6 : Ck = fxi 2 Xjuik = max

k02[1::nk]

uik0g; 8k 2 [1::nk]

Discussion

La version à noyaux COKFKM généralise complètement COFKM. En effet, il suffit de choisir

comme matrices noyaux pour chaque vue les matrices des produits scalaires individus dans

l’espace de description d’origine X(r). Soit K(r)

ij = h_(x(r)

i ); _(x(r)

j )i = hx(r)

i ; x(r)

j i, alors on a bien

jj_(r)(x(r)

i ) 􀀀 c(r)

k jj22

= jjx(r)

i 􀀀 c(r)

k jj22

.

Le critère optimisé correspond exactement à celui de COFKM appliqué cette fois dans H =

fH(r)gr2[1::nr]. L’intérêt de COKFKM réside essentiellement dans la possibilité d’utiliser différentes

matrices de proximité, en particulier des matrices de similarité, plus adaptées aux données.

Cependant l’utilisation de cette astuce peut avoir un coût, notamment du point de vue de

la complexité qui est présenté par la suite.

Complexité algorithmique

L’objectif de ce paragraphe est ici d’étudier les pertes associées à l’utilisation de COKFKM (plus

général) par rapport à COFKM, au sens de la complexité algorithmique. L’algorithme COFKM (cf.

algorithme 15) se décompose en trois étapes :

2.5. ÉVALUATION 77

1. Le calcul des degrés d’appartenances locaux u(r)

ik par (2.31).

Pour chaque xi, k et r, une somme pondérée sur les vues r des distances aux prototypes

est calculée. La distance dans une vue r se calculant en O(n(r)

p ), le calcul de u(r)

ik s’effectue

alors en O(nr:n(r)

p ). L’étape de mise à jour complète des degrés a pour complexité au pire

des cas O(nk:n2r

:n:

Xnr

r=1

n(r)

p ).

2. Le calcul des degrés collaboratifs u(r)

ik_ par (2.26).

Il suffit de calculer pour chaque xi,k et r une somme pondérée sur les vues des degrés

locaux déjà évalués. La mise à jour de tous les u(r)

ik_ se fait ainsi en O(nk:nr

2:n).

3. Le calcul des centres c(r)

k par (2.29).

Il suffit de calculer pour chaque k et r une moyenne pondérée sur les individus. La mise à

jour de tous les c(r)

k a un coût de O(nk:nr:n).

La complexité à l’issue des trois étapes devient O(nk:nr:n(1+nr +(

Pnr

r=1 n(r)

p ):nr)). La complexité

de COFKM est alors O(nk:nr:n(((

Pnr

r=1 n(r)

p ) + 1):nr)).

Dans le cas de l’algorithme COKFKM (cf. algorithme 16), des trois étapes de calcul, seule la

dernière change, puisqu’il n’est pas possible de calculer explicitement les centres dans l’espace

de projection. Ceux-ci sont déplacés implicitement pendant le calcul des distances. De ce fait ces

distances sont désormais stockées en mémoire, ce qui n’était pas nécessaire dans COFKM, ainsi :

1. Le calcul des degrés d’appartenances est moins coûteux : O(nk:nr

2:n).

2. Le coût du calcul des degrés collaboratifs est inchangé : O(nk:nr

2:n).

3. La mise à jour des distances aux centres par (2.39) se réalise en O(nk:nr:n2).

La complexité au pire des cas, à l’issue des trois étapes, est de l’ordre de O(nk:nr:n(n+2:nr)).

Si on émet les hypothèses suivantes (largement vérifiées dans les cas concrets d’applications)

n >> nr i.e. on a à disposition plus d’individus que de vues ;

Pnr

r=1 n(r)

p >> nr i.e. la dimensionnalité de la concaténation des représentations vectorielles

de chaque vue est largement plus élevé que le nombre de vues ;

alors les complexités des deux approches à comparer deviennent :

COFKM : O(nk:nr:n:(

Xnr

r=1

n(r)

p )) ;

COKFKM : O(nk:nr:n:n).

En d’autres termes, si le nombre d’individus n est beaucoup plus grand que la somme des

dimensionnalités n(r)

p , alors l’approche COFKM est moins complexe et plus rapide d’exécution.

En revanche, dans le cas de la malédiction de la dimensionnalité, où le nombre d’attributs est

beaucoup plus grand que le nombre d’individus, l’approche à noyaux devient moins complexe,

et se justifie alors comme une variante efficace.

2.5 Évaluation

Les approches COFKM et COKFKM ont été validées expérimentalement en suivant différentes

procédures d’évaluation internes et externes. Les jeux de données qui ont servi de base

de validation sont tirés de travaux de recherche comme celui de [Strehl and Ghosh, 2003] 1 ou

de bases de données disponibles en ligne telles l’UCI Machine Learning Repository 2 ou WebKB 3.

1. http://strehl.com/

2. http://archive.ics.uci.edu/ml/

3. http://www.mpi-inf.mpg.de/ bickel/mvdata/

78 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

2.5.1 Données

Le premier jeu de données multiple features ou mfeat correspond à un ensemble de 2000

chiffres manuscrits (images) numérisées par six techniques d’encodage d’images :

– les coefficients de Fourier : X1 2 [0; 1]2000_76 ;

– les corrélations de profils : X2 2 N2000_216 ;

– les coefficients de Karhunen-Loève : X3 2 R2000_64 ;

– les descripteurs morphologiques : X4 2 R2000_6 ;

– les nombres de pixels dans des fenêtres 2 _ 3 : X5 2 N2000_240 ;

– les moments de Zernike : X6 2 R2000_47.

Ainsi, chaque individu (chiffre) est représenté par six représentations vectorielles et chacune de

ces représentations est insuffisante pour retrouver les différents groupes d’images représentant

un même chiffre. Dix classes sont à retrouver (les chiffres de 0 à 9), avec 200 individus par classe.

Le jeu 2D2K contient 1000 individus générés par un mélange de deux gaussiennes bidimensionnelles

sphériques (pour une classe donnée, la valeur de variance est égale dans les deux

dimensions). À partir de ces données bidimensionnelles, trois représentations sont construites

artificiellement :

– la première vue correspond à la première dimension : X1 2 R1000_1 ;

– la seconde vue correspond à la seconde dimension : X2 2 R1000_1 ;

– la troisième vue correspond de nouveau à la première dimension :

X3 2 R1000_1.

Deux classes sont à retrouver et s’identifient avec les deux composantes du mélange.

WebKB est un jeu de donnée réel correspondant à une collection de 4501 pages web académiques

tirées d’universités des États-Unis (Cornell, Texas, Washington et Wisconsin) et regroupées

manuellement en six classes de pages concernant respectivement les étudiants, la faculté,

le personnel, les départements, les cours et les projets de recherche. Deux représentations sont

disponibles :

– la première vue concerne le texte de chaque page web :

X1 2 N4501_25000 ;

– la seconde vue correspond au texte de tous les liens entrants :

X2 2 N4501_900.

La première représentation est très volumineuse en terme de dimensionnalité et les deux

prennent la forme de matrices très creuses. Ceci constitue un défi pour les méthodes de classifications

actuelles, et se retrouve fréquemment dans les applications de type fouille de textes ou

fouille du web. Les classes sont cette fois non homogènes en taille et les vues sont très déséquilibrées

et inégales quant à la quantité d’informations qu’elles apportent.

2.5.2 Protocole expérimental

Les deux premiers jeux de données ont servi à valider principalement l’approche COFKM dédiée

au cas où les individus sont définis par des représentations vectorielles. Le troisième jeu de

donnée valide l’apport de l’extension à noyaux COKFKM.

Tous les jeux de données se sont vu appliqués la normalisation imposée par COFKM selon un

principe d’équité entre toutes les représentations, et entre tous les attributs de chaque représentation.

Dans un premier temps, différentes expériences ont été conduites dans le but de justifier

l’intérêt des approches collaboratives centralisées comparées aux approches a priori (par concaténation)

et a posteriori, d’une part en détaillant les gains de performances obtenus par rapport

à ces techniques, et d’autre part en caractérisant la solution consensus en terme d’évaluation

2.5. ÉVALUATION 79

interne. Dans un second temps, la performance de COFKM est étudiée comparativement aux

approches de l’état de l’art telles COFC et COEM.

Les résultats obtenus correspondent à une moyenne de 20 exécutions pour multiple features,

100 exécutions pour 2D2K et 10 exécutions pour WebKB. Les différentes méthodes ont été comparées

chaque fois avec la même initialisation. Les paramètres de COFKM sont fixés à _ = 1:25

(valeur couramment employée) lorsque la performance de l’algorithme n’est pas évaluée selon

ce paramètre, et _ = nr􀀀1

2_nr

, ce qui correspond à une valeur heuristique de collaboration entre les

versions a priori (_ = nr􀀀1

nr

) et a posteriori (_ = 0) de COFKM.

En ce qui concerne COEM(et EM), l’estimation des paramètres d’un modèle de mélange

gaussien général est inefficace, différents modèles parcimonieux ont alors été observés :

– le cas des matrices de variances/covariances de la forme _k:I (vs1) ;

– le cas des matrices de la forme _:I (le même _ pour toutes les composantes du mélange)

(vs2) ;

– le cas des matrices diagonales (vs3).

Le paramètre _ de COEM quant à lui décroît progressivement pour garantir la convergence.

Pour l’application de l’algorithme COFC, il n’est pas spécifié que l’application de l’algorithme

puisse se faire de manière simultanée sur tous les sites (les différentes vues). Plusieurs cas ont

alors été envisagés dans les tests comparatifs :

– COFC-vue réalise un FKM indépendant dans chaque vue. Les matrices de partitions floues

résultantes sont ensuite fixées pour toutes les vues sauf celle dans laquelle se déroule le

clustering par COFC.

– COFCGlobal-vue réalise un FKM dans chaque vue, mais cette fois les matrices de partitions

floues évoluent par COFC simultanément dans dans toutes les vues.

2.5.3 Évaluation interne

Un premier objectif justifiant l’intérêt des approches centralisées concerne la stabilité de la

qualité du clustering final au regard de chacune des vues. L’idée est ici d’observer si le clustering

obtenu à l’issue du processus collaboratif est bon sur chacune des vues. Une telle observation

confirmerait l’idée qu’une bonne solution globale peut être obtenue tout en assurant que toutes

les vues s’accordent pour conforter la qualité de cette solution. La procédure d’évaluation interne

est la suivante :

– on compare les critères internes (inerties) obtenues par COFKM et ses variantes a priori et

a posteriori;

– on observe les valeurs de ses critères dans chacune des vues, et ceci à la fois avant et après

la règle d’affectation (2.32).

L’objectif visé est qu’une solution consensus soit bonne sur toutes les vues (stable) au sens du

critère interne avant la règle d’affectation, et que cette règle ne détériore pas trop cette stabilité.

Les figures 2.3 et 2.4 confirment l’intuition sur les approches multi-vues centralisées. Dans

les deux cas, au sens du critère interne et avant fusion, COFKM permet d’apprendre une solution

meilleure que celle de sa variante concaténée (a priori) et surtout l’écart entre les inerties locales

est plutôt faible dans le cas de l’approche centralisée (ce qui traduit la stabilité de la solution sur

toutes les vues). La version a posteriori est celle qui optimise localement les inerties (sans collaborations

entre les vues), elle se positionne comme une référence (avant fusion). En revanche,

si l’on observe l’impact de la règle d’affectation permettant d’obtenir un clustering unique pour

toutes les vues, la qualité de l’approche sans collaborations se détériore complètement. Le résultat

de référence après fusion est la concaténation qui reste inchangée puisque le degré d’appartenance

d’un individu aux groupes est le même dans toutes les vues (avant ou après la règle).

80 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

0 1 2

200

220

240

260

280

300

320

340

360

380

400

Avant Fusion

CoFKM-h CoFKMpost

CoFKM-prio

Vues

Inerties

0 1 2

200

300

400

500

600

700

800

900

1000

Après Fusion

CoFKM-h CoFKMpost

CoFKM-prio

Vues

Inerties

FIGURE 2.3 — Comparaisons des valeurs de critère interne dans chaque vue avant et après fusion (règle

d’affectation) pour COFKM et ses variantes a priori et a posteriori pour 2D2K.

FIGURE 2.4 — Comparaisons des valeurs de critère interne dans chaque vue avant et après fusion (règle

d’affectation) pour COFKMet ses variantes a priori et a posteriori pour multiple features.

Nous constatons que COFKM devient sensiblement équivalent à sa variante concaténée. Une

autre façon de mesurer l’impact du désaccord sur le critère objectif de COFKM est d’observer la

proportion de ces deux valeurs. Cette mesure est faite dans le graphique fig.2.7.

2.5.4 Évaluation externe

L’évaluation externe vise à mesurer la performance de COFKM par rapport à l’état de l’art

dans l’objectif de retrouver une classification de référence. Les critères de mesure de performance

sont ceux décrits dans la section 1.5.3 : la F-mesure ou F-score (évaluée grâce au rappel

et à la précision), l’entropie moyenne ou AvgEnt et l’information mutuelle normalisée NMI.

Les différentes expériences réalisées visent à :

2.5. ÉVALUATION 81

– confirmer l’intérêt d’utiliser toutes les vues des données afin d’améliorer la qualité du

clustering produit ;

– insister sur l’importance de maintenir la recherche d’une solution réalisant un compromis

des différentes solutions locales naturelles ;

– étudier l’impact des paramètres _ et _ sur la qualité du clustering produit ;

– observer l’apport de l’extension pour le traitement de données décrites par des matrices

de similarités.

Intérêt de l’utilisation de toutes les descriptions.

Les premiers travaux autour du clustering de données multi-représentées visaient à démontrer

l’apport de l’utilisation conjointe des différentes vues afin de garantir une meilleure qualité du

clustering produit comparativement à l’utilisation d’une représentation unique. COFKM a ainsi

été éprouvé sur les jeux mfeat et 2D2K et comparé à FKM appliqué séparément sur chacune des

vues.

% F-mesure AvgEnt NMI

COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00

FKM-fac 66.69 _ 3.89 0.98 _ 0.09 0.70 _ 0.03

FKM-fou 33.19 _ 1.76 2.24 _ 0.06 0.32 _ 0.02

FKM-kar 23.04 _ 1.19 2.97 _ 0.09 0.11 _ 0.03

FKM-mor 57.04 _ 4.25 1.16 _ 0.11 0.65 _ 0.03

FKM-pix 70.41 _ 2.93 0.88 _ 0.06 0.74 _ 0.02

FKM-zer 42.56 _ 1.23 1.73 _ 0.03 0.48 _ 0.01

EM gmm(vs1)-fac 23.55 _ 4.20 2.65 _ 0.30 0.20 _ 0.09

EM gmm(vs1)-fou 18.12 _ 0.06 3.25 _ 0.03 0.02 _ 0.01

EM gmm(vs1)-kar 19.01 _ 0.48 3.10 _ 0.08 0.07 _ 0.02

EM gmm(vs1)-mor 38.20 _ 3.48 1.71 _ 0.15 0.48 _ 0.05

EM gmm(vs1)-pix 21.49 _ 2.16 2.79 _ 0.23 0.16 _ 0.07

EM gmm(vs1)-zer 18.66 _ 0.23 3.06 _ 0.07 0.08 _ 0.02

EM gmm(vs2)-fac 62.67 _ 5.20 1.06 _ 0.13 0.68 _ 0.04

EM gmm(vs2)-fou 42.73 _ 3.11 1.69 _ 0.09 0.49 _ 0.03

EM gmm(vs2)-kar 56.05 _ 2.45 1.25 _ 0.06 0.62 _ 0.02

EM gmm(vs2)-mor 57.13 _ 3.59 1.17 _ 0.10 0.65 _ 0.03

EM gmm(vs2)-pix 63.38 _ 5.68 1.01 _ 0.13 0.70 _ 0.04

EM gmm(vs2)-zer 40.39 _ 1.29 1.79 _ 0.05 0.46 _ 0.02

EM gmm(vs3)-fac 63.78 _ 5.64 0.99 _ 0.13 0.70 _ 0.04

EM gmm(vs3)-fou 45.50 _ 3.51 1.54 _ 0.10 0.54 _ 0.03

EM gmm(vs3)-kar 58.38 _ 3.59 1.11 _ 0.09 0.67 _ 0.03

EM gmm(vs3)-mor 50.40 _ 3.99 1.42 _ 0.11 0.57 _ 0.03

EM gmm(vs3)-pix 42.50 _ 4.18 1.57 _ 0.14 0.53 _ 0.04

EM gmm(vs3)-zer 37.05 _ 0.80 1.85 _ 0.03 0.44 _ 0.01

TABLEAU 2.1 — Évaluation externe sur mfeat de COFKM comparé aux approches mono-vues.

COFKM surpasse les approches floues et probabilistes FKM et EM selon différents modèles parcimonieux,

selon les 3 critères d’évaluation.

Les tableaux 2.1, 2.2 permettent d’observer le profit obtenu de l’utilisation conjointe de

toutes les représentations. Pour les deux jeux de données, COFKM surpasse assez nettement les

82 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

% F-mesure AvgEnt NMI

COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00

FKM-2d2kv1 85.32 _ 5.88 0.40 _ 0.19 0.60 _ 0.19

FKM-2d2kv2 82.64 _ 0.00 0.45 _ 0.00 0.55 _ 0.00

FKM-2d2kv3 85.32 _ 5.88 0.40 _ 0.19 0.60 _ 0.19

EM gmm(vs1)-v1 79.19 _ 8.53 0.50 _ 0.21 0.50 _ 0.21

EM gmm(vs1)-v2 79.74 _ 4.26 0.50 _ 0.07 0.50 _ 0.07

EM gmm(vs1)-v3 79.19 _ 8.53 0.50 _ 0.21 0.50 _ 0.21

EM gmm(vs2)-v1 85.12 _ 5.82 0.40 _ 0.19 0.60 _ 0.19

EM gmm(vs2)-v2 82.64 _ 0.00 0.45 _ 0.00 0.55 _ 0.00

EM gmm(vs2)-v3 85.12 _ 5.82 0.40 _ 0.19 0.60 _ 0.19

EM gmm(vs3)-v1 82.80 _ 6.41 0.44 _ 0.20 0.56 _ 0.20

EM gmm(vs3)-v2 82.46 _ 1.54 0.46 _ 0.02 0.54 _ 0.02

EM gmm(vs3)-v3 82.80 _ 6.41 0.44 _ 0.20 0.56 _ 0.20

TABLEAU 2.2 — Évaluation externe sur 2D2K de COFKM comparé aux approches mono-vues.

COFKM surpasse les approches floues et probabilistes FKM et EM selon différents modèles parcimonieux,

selon les 3 critères d’évaluation.

approches floues et probabilistes FKM et EM quelque soit la représentation sur laquelle elles

sont appliquées, et selon tous les critères d’évaluation.

Intérêt de la recherche d’un compromis.

L’intérêt principal de la contribution COFKM est notamment de justifier le critère proposé

comme une variante du critère de COEM offrant des propriétés de convergence tout en maintenant

la recherche d’un accord entre les vues (_ ne décroît pas). De la même manière l’intérêt de

ce maintien est observé au regard de COFC qui dans son expression la plus simple fixe toutes les

vues sauf une dans laquelle une solution réalisant un accord est recherchée. Les tableaux 2.3 et

2.4 permettent de mesurer les qualités respectives de ces approches.

COFKM se comporte mieux sur le jeu de données mfeat où il surpasse les autres approches

de l’état de l’art. En revanche les résultats sont bien plus ténus sur le jeu 2D2K pour lequel une

variante parcimonieuse de COEM dans le cas d’un mélange de gaussiennes offre les meilleurs

résultats. Les résultats de COFC sont mauvais et tendent à produire des groupes déséquilibrés en

taille, ce qui tend à augmenter le Rappel mais diminuer la Précision, de même que la F-mesure.

En réalité cette dégénérescence est dû à l’imposition du paramètre de flou _ fixé à 2 dans le

critère objectif de COFC.

Enfin, dans le but de justifier empiriquement la démarcation de la contribution proposée par

rapport aux variantes de fusion a priori et a posteriori, l’approche à été évaluée comparativement

à celles-ci. Les tableaux 2.5 et 2.6 reflètent l’apport de la recherche d’un clustering par une

approche centralisée. COFKM se comporte mieux sur mfeat que les variantes a priori (concat)

et a posteriori déclinées identiquement de COFKM et COEM. Encore une fois les différences sur

2D2K sont moins flagrantes et cette fois la fusion a priori est plus efficace. Toutefois l’objectif

des approches centralisées n’est pas de surpasser les fusions a priori. Celle-ci n’est en effet pas

possible lorsque l’on se place dans un contexte général de données distribuées et de traitement

centralisés. Les informations de clustering (degrés d’appartenances et prototypes) sont moins

2.5. ÉVALUATION 83

% F-mesure AvgEnt NMI

COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00

COEM gmm(vs1) 39.81 _ 5.34 1.61 _ 0.13 0.52 _ 0.04

COEM gmm(vs2) 82.80 _ 4.44 0.50 _ 0.09 0.85 _ 0.03

COEM gmm(vs3) 74.96 _ 5.42 0.72 _ 0.12 0.78 _ 0.04

COFC-fac 51.73 _ 5.03 1.34 _ 0.16 0.60 _ 0.05

COFC-fou 55.88 _ 4.85 1.23 _ 0.13 0.63 _ 0.04

COFC-kar 56.13 _ 4.91 1.23 _ 0.14 0.63 _ 0.04

COFC-mor 59.74 _ 5.72 1.17 _ 0.15 0.65 _ 0.05

COFC-pix 52.56 _ 5.11 1.32 _ 0.16 0.60 _ 0.05

COFC-zer 56.61 _ 4.79 1.19 _ 0.14 0.64 _ 0.04

COFC Global-fac 30.77 _ 0.08 2.47 _ 0.01 0.26 _ 0.00

COFC Global-fou 31.00 _ 0.07 2.45 _ 0.01 0.26 _ 0.00

COFC Global-kar 31.00 _ 0.05 2.45 _ 0.01 0.26 _ 0.00

COFC Global-mor 31.22 _ 0.03 2.45 _ 0.00 0.26 _ 0.00

COFC Global-pix 30.81 _ 0.05 2.46 _ 0.01 0.26 _ 0.00

COFC Global-zer 30.58 _ 0.03 2.43 _ 0.00 0.25 _ 0.00

TABLEAU 2.3 —Évaluation externe sur mfeat de COFKM comparé aux approches centralisées multi-vues.

COFKM surpasse les approches COEM et COFC, selon les 3 critères d’évaluation.

% F-mesure AvgEnt NMI

COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00

COEM gmm (vs1) 93.85 _ 1.09 0.18 _ 0.02 0.82 _ 0.02

COEM gmm (vs2) 95.12 _ 0.00 0.15 _ 0.00 0.85 _ 0.00

COEM gmm (vs3) 66.62 _ 0.00 1.00 _ 0.00 0.00 _ 0.00

COFC-v1 88.84 _ 6.20 0.30 _ 0.14 0.70 _ 0.14

COFC-v2 91.95 _ 2.94 0.23 _ 0.07 0.77 _ 0.07

COFC-v3 88.84 _ 6.20 0.30 _ 0.14 0.70 _ 0.14

COFC Global-v1 91.22 _ 0.00 0.25 _ 0.00 0.75 _ 0.00

COFC Global-v2 94.17 _ 0.00 0.19 _ 0.00 0.81 _ 0.00

COFC Global-v3 91.22 _ 0.00 0.25 _ 0.00 0.75 _ 0.00

TABLEAU 2.4 — Évaluation externe sur 2D2K de COFKM comparé aux approches centralisées multivues.

COEM pour un modèle parcimonieux classique dépasse l’approche COFKM, selon les 3 critères

d’évaluation.

coûteuses à échanger et transférer que les descriptions des individus elles mêmes. De plus les informations

de clustering offrent un résumé et ne dévoilent pas la nature d’un individu particulier,

et ainsi respecte la confidentialité des données.

Impact des paramètres sur la qualité du clustering.

COFKM nécessite, pour garantir une certaine flexibilité, de définir deux paramètres _ et _

représentant le degré de flou, ainsi que l’importance de l’accord souhaité. Des expériences ont

permis de mesurer l’influence de chacun de ces paramètres et de justifier les heuristiques. Elles

sont représentées dans les graphiques Fig. 2.5.

84 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

% F-mesure AvgEnt NMI

COFKM 92.01 _ 0.00 0.29 _ 0.00 0.91 _ 0.00

COFKM post 55.72 _ 4.28 1.21 _ 0.12 0.64 _ 0.04

COEM gmm post(vs1) 27.46 _ 9.01 2.53 _ 0.54 0.24 _ 0.16

COEM gmm post(vs2) 57.20 _ 5.22 1.18 _ 0.14 0.65 _ 0.04

COEM gmm post(vs3) 45.64 _ 5.21 1.54 _ 0.15 0.54 _ 0.05

FKM concat 90.42 _ 3.44 0.33 _ 0.07 0.90 _ 0.02

EM concat(vs1) 32.51 _ 6.68 1.77 _ 0.25 0.47 _ 0.08

EM concat(vs2) 77.90 _ 5.72 0.56 _ 0.12 0.83 _ 0.04

EM concat(vs3) 60.10 _ 5.53 1.04 _ 0.14 0.69 _ 0.04

TABLEAU 2.5 —Comparaison entre COFKM, et les variantes a priori et a posteriori pour multiple features.

% F-mesure AvgEnt NMI

COFKM 94.18 _ 0.00 0.18 _ 0.00 0.82 _ 0.00

COFKM post 86.28 _ 13.27 0.34 _ 0.27 0.66 _ 0.27

COEM gmm post(vs1) 80.43 _ 14.21 0.45 _ 0.29 0.55 _ 0.29

COEM gmm post(vs2) 86.60 _ 14.69 0.32 _ 0.29 0.68 _ 0.29

COEM gmm post(vs3) 85.47 _ 13.36 0.36 _ 0.27 0.64 _ 0.27

FKM concat 96.27 _ 0.00 0.13 _ 0.00 0.87 _ 0.00

EM concat(vs1) 93.18 _ 8.22 0.19 _ 0.15 0.81 _ 0.15

EM concat(vs2) 96.27 _ 0.00 0.13 _ 0.00 0.87 _ 0.00

EM concat(vs3) 96.07 _ 0.00 0.14 _ 0.00 0.86 _ 0.00

TABLEAU 2.6 — Comparaison entre COFKM, et les variantes a priori et a posteriori pour 2D2K.

FIGURE 2.5 — Influence des paramètres _ et _ sur COFKM pour mfeat (à gauche) et 2D2K (à droite).

Selon le jeu de donnée le paramétrage idéal n’est pas le même, ce qui conforte l’idée de proposer une

approche plus flexible.

Pour 2D2K, on peut choisir n’importe qu’elle valeur de _ au delà de _ = 1:1 et on peut

observer que l’heuristique pour _ = nr􀀀1

2_nr

= 1

3 donne de bons résultats. Pour mfeat, une valeur

appropriée pour _ devrait être proche de 1:2. La valeur _ = 2 donne de très mauvais résultats

pour COFKM, ce qui confirme les résultats obtenus sur COFC à valeur identique du paramètre

2.5. ÉVALUATION 85

de flou. Le choix heuristique de _ = nr􀀀1

2_nr

= 5

12 donne encore une fois des résultats corrects

(Fig.2.6).

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

0 0.2 0.4 0.6 0.8 1

F-Score

ç

Fusion a posteriori

Fusion a priori (concat)

CoFKM

FIGURE 2.6 — COFKM sur mfeat pour différentes

valeurs de _. On remarque que l’heuristique de

choix de _ permet de dépasser la performance de

la fusion a priori.

5900

6000

6100

6200

6300

6400

6500

5 10 15 20 25 30

350

400

450

500

550

600

Q(CoFKM)

desaccord

iterations

Q(CoFKM)

desaccord

FIGURE 2.7 — Évolution du critère COFKM sur

mfeat.

Apports de la variante à noyaux

COKFKM a été également étudié empiriquement sur une partie du jeu de données WebKB (les

100 premiers individus). Ce jeu est assez difficile à traiter, puisqu’il réunit un certain nombre de

conditions néfastes pour les approches de classification usuelles :

– la dimensionnalité est très élevée comparée aux nombre d’individus (documents) disponibles

;

– dans la vue représentant le contenu des liens entrants, beaucoup d’individus n’ont pas de

descriptions ;

– les tailles des classes sont déséquilibrées.

Le modèle COFKM a été comparé avec COEM pour un mélange de lois multinomiales, puis

avec l’extension COKFKM en choisissant comme matrices de similarité, la distance du cosinus

entre les documents, considérée comme plus efficace sur les données textuelles que les produits

scalaires classiques. Il s’agit en fait, de normaliser ces derniers par la taille des vecteurs documents

correspondant. Soient xi et xj deux vecteurs de termes correspondant à des descriptions

de deux documents, la matrice de similarité du cosinus Kcos entre xi et xj est définie par :

K(r)

cosij =

hx(r)

i ; x(r)

j i

jjx(r)

i jj2:jjx(r)

j jj2

Dans le cas où les vecteurs de documents sont centrés et réduits, il s’agit d’une reformulation

dans le cadre de la Recherche d’Information, de la corrélation entre xi et xj .

Les algorithmes COKFKM, COFKM et COEM ont été modifiés pour prendre en compte notamment

les descriptions vides de la plupart des individus. En effet, lorsqu’un objet n’a pas de

description dans une vue, on ne l’intègre pas dans la définition des centres (dans COFKM), ou

par le calcul des distances aux centres (dans COKFKM).

De plus, et afin d’obtenir une version moins coûteuse en temps que l’approche COKFKM,

une version accélérée de COKFKM est proposée. Elle correspond à une variante dans laquelle

86 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

la définition des distances aux centres (2.39) est réexprimée, de sorte à ne pas tenir compte

de tous les individus, mais seulement d’un pourcentage prédéfini parmi les plus proches. Dans

l’esprit, ce principe tend à faire comporter COKFKM comme une variante moins floue et plus

proche d’une extension multi-vues de KM. Soit q% le pourcentage prédéfini, on peut associer à

chaque centre ck l’ensemble N(ck) des q = q%n individus ayant les degrés d’appartenance au

groupe Ck les plus élevés. Ainsi, étant donnés xi, ck et r, si l’on veut calculer d2(

r)(xi; ck

_), nous

ne considérerons que les q% = n

nk

individus xi 2 N(ck) qui sont les plus représentatifs du groupe

Ck :

d2 (r)(xi; ck

_) = K(r)

ii 􀀀 2

X

xj2N(ck)

u(r)

jk_

_

K(r)

ij

X

xj2N(ck)

u(r)

jk_

_ +

X

xj2N(ck)

X

xl2N(ck)

u(r)

jk_

_

u(r)

lk_

_

K(r)

jl

_ X

xj2N(ck)

u(r)

jk_

_

_2

Le choix heuristique q% = n

nk

correspond à l’hypothèse d’homogénéité de la taille des

groupes.

FIGURE 2.8 — Tests comparatifs entre COKFKM, COFKM et COEM.

La figure 2.8 montre l’évolution de l’entropie moyenne en fonction du nombre de groupes.

COEM se comporte mieux que COFKM, mais l’apport le plus significatif concerne l’utilisation de

matrices noyaux cosinus, ce qui n’est pas gérable tel quel par COEM. Les résultats obtenus par

COKFKM sont sensiblement équivalents à ceux obtenus par concaténation avec une approche

FKM à noyau classique. Enfin, l’accélération est une heuristique prometteuse et elle laisse entrevoir

des perspectives sur l’extension à noyaux.

2.6. DISCUSSION 87

2.6 Discussion

Les contributions COFKM et COKFKM réalisent un traitement centralisé de données multivues,

ou multi-sources éventuellement décentralisées. Elles s’inscrivent complètement dans le

paradigme des approches discriminatives vues comme des problèmes d’optimisation d’un critère

objectif pénalisé : le compromis entre la recherche de clusterings locaux dans chaque vue et la

recherche d’un accord. COFKM permet de concilier les approches floues qui se retrouvent régulièrement

parmi les méthodes de clustering centralisées, avec les approches probabilistes de type

COEM en offrant de bonnes propriétés de convergence quelque soit l’importance de la recherche

d’une solution consensus. L’algorithme proposé est simple, intuitif, facilement implémentable et

parallélisable. Il est flexible de par son paramétrage mais reste contrôlable par le nombre réduit

de ces paramètres. Il est facilement extensible par sa variante à noyaux et permet de prendre

en compte des données multi-vues où celles-ci sont décrites, soit par des représentations vectorielles,

soit par des tableaux relationnels.

Malgré les avantages, COFKM et COKFKM sont limités sur plusieurs aspects. Tout d’abord,

à l’image de COEM, le nombre de groupes doit être donné et identique dans toutes les vues,

ce qui est extrêmement restrictif. Il est en général admis que le nombre naturel de groupes

dans chaque vue soit différent. Cependant, dans le contexte où l’on cherche un clustering unique

des individus, cet argument négatif semble ne plus tenir. Un autre inconvénient concerne la

recherche des clusterings locaux. Celle-ci est réalisée uniquement selon l’objectif de FKM. Cette

imposition restreint encore une fois l’approche car elle ne permet pas de prendre en compte

la recherche d’un clustering local adapté dans le cas où les individus sont distribués selon des

formes arbitraires, et non nécessairement des classes convexes et bien séparées. Ceci est gérable,

mais difficile à contrôler, par l’utilisation de matrices de proximité adaptées dans chaque vue

et l’utilisation de COKFKM. La difficulté de découvrir des groupes de formes arbitraires dans

l’espace de description d’origine est alors reportée sur la construction de matrices de similarité

adaptées capables de suggérer un nouvel espace dans lequel les groupes seraient compactes et

bien séparés, à l’image du Laplacien normalisé de SC (cf. section 1.3.1.2).

2.7 Conclusion

Ce chapitre a permis de présenter la problématique du clustering multi-vues. L’étude a été

centrée sur les approches dites centralisées, et les différentes alternatives proposées dans la littérature

ont été dressées. Les contributions proposées prennent leurs racines dans quelques-unes

de ces approches, COFC et COEM, afin de les étendre et de tirer parti du meilleur de chacune.

L’approche COFKM définie présente de bonnes propriétés puisqu’elle généralise différentes solutions

de fusion, permet de lui associer une solution algorithmique efficace et convergente,

se compose de peu de paramètres et est donc moins sensible à ce paramétrage. L’extension

COKFKM permet de traiter les cas où les données sont décrites par plusieurs matrices de similarité

et est ainsi beaucoup plus flexible pour gérer des cas concrets d’applications. Les résultats

empiriques développés valident les contributions et viennent confirmer l’apport de celles-ci comparé

aux approches existantes.

Les divers inconvénients relevés notamment lors de rencontres avec des spécialistes de la

communauté fouille de données ont permis de réfléchir à d’autres techniques de classification

non supervisée, réalisant un minimum d’hypothèses sur la forme de la distribution des individus

dans chaque représentation (ou le critère objectif local correspondant) ou le nombre de

groupes local le plus adapté. L’idée est de proposer un traitement séquentiel sur l’ensemble des

représentations de sorte que pour chaque représentation, la recherche d’un clustering soit guidée

par les derniers résultats émanant des autres vues et considérés comme autant de superviseurs.

88 CHAPITRE 2. CLASSIFICATION NON SUPERVISÉE MULTI-VUES CENTRALISÉE

L’approche envisagée se fonde alors sur des éléments d’apprentissage semi-supervisé dont il est

question dans le prochain chapitre.

Classification non supervisée et 3

intégration de connaissances

Sommaire

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.3 Approches par satisfaction des contraintes . . . . . . . . . . . . . . . . . . . 92

3.3.1 COP-KMEANS : les K-moyennes sous contraintes . . . . . . . . . . . . . 92

3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet . . . . . 94

3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé . . . . . . . 95

3.4 Approches par objectif pénalisé . . . . . . . . . . . . . . . . . . . . . . . . . 98

3.4.1 PCKM : les K-moyennes contraintes pénalisées . . . . . . . . . . . . . 98

3.4.2 SSKM : les K-moyennes semi-supervisées . . . . . . . . . . . . . . . . . 100

3.5 Approches par altération de la proximité . . . . . . . . . . . . . . . . . . . . 101

3.5.1 LLMA : adaptation localement linéaire de la métrique . . . . . . . . . 101

3.6 Approches indépendantes de l’algorithme de clustering . . . . . . . . . . . 104

3.6.1 BC : BoostCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

3.7 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.7.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.7.2 BOC : boosting de clustering . . . . . . . . . . . . . . . . . . . . . . . . 109

3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering

par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

3.8 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.8.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.8.2 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.8.3 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

3.8.4 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

3.9 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

90 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

3.1 Introduction

Ce chapitre présente les contributions apportées au clustering semi-supervisé, les approches

BOC et UZABOC. Ces propositions ont été publiées dans la communauté internationale de

fouille de données et la communauté francophone de classification [Sublemontier et al., 2011c],

[Sublemontier et al., 2011b]. Le contexte scientifique et la problématique seront rappelés. Seront

développées également une famille d’algorithmes de clustering semi-supervisés ainsi que

quelques approches d’apprentissage de distances apportant des solutions au problème. Il sera

précisé à chaque fois, à l’image des chapitres précédents, le type d’approche (algoithmique pure,

discriminative ou générative). Ensuite sera détaillée une approche particulière de l’état de l’art,

concernant les approches dites indépendantes de l’algorithme de clustering. Pour finir, les études

empiriques réalisées valideront les contributions et quelques perspectives d’amélioration seront

discutées.

L’objectif des approches de clustering semi-supervisées est de produire une structure permettant

d’organiser les données tout en satisfaisant des contraintes fournies pour certaines paires

d’individus à regrouper ensemble ou non. La notation choisie pour refléter au mieux les différentes

approches proposées est la suivante :

NOTATION

n : le nombre d’individus à regrouper.

np : le nombre d’attributs décrivant les individus.

nk : le nombre de groupes à identifier.

nc : le nombre de classes associé aux données.

X = fx1; :::; xng : l’ensemble des n individus à partitionner.

X 2 Rn_np : la représentation matricielle de X.

xi 2 Rnp : la représentation vectorielle de l’individu xi.

C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.

c = fc1; :::; cnkg : l’ensemble des nk prototypes des groupes.

C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.

D = fD0; :::;Dng : la structure de dendrogramme associée aux données.

d(xi; xj) : la distance au sens général entre deux individus xi et xj .

dP (xi; xj) : la distance entre xi et xj dans un sous-espace P.

jjxi 􀀀 xj jjp : la distance de Minkowski entre deux individus xi et xj .

ML : l’ensemble des (xi; xj) 2 X2 devant être regroupés.

CL : les (xi; xj) 2 X2 devant être séparés.

m : le nombre de contraintes ML et CL.

m+ : le nombre de contraintes ML.

m􀀀 : le nombre de contraintes CL.

A : l’algorithme de clustering employé pour obtenir C.

Link(xi; xj ;A) : xi et xj sont regroupés par A.

Link(xi; xj ;A) : xi et xj sont séparés par A.

H 2 f0; 1gn_n : la matrice de clustering associée à C

3.2 Contexte

La problématique du clustering semi-supervisé [Davidson and Basu, 2007] correspond à la

recherche d’un clustering des individus, par un algorithme de clustering A, devant respecter un

3.2. CONTEXTE 91

ensemble de connaissances de classification sur certaines paires d’individus. Ces connaissances

prennent la forme de contraintes notées ML et CL telles que :

– deux individus xi et xj liés par une contrainte ML (must-link) doivent être regroupés par

A, plus formellement :

(xi; xj) 2 ML ) Link(xi; xj ;A)

– deux individus xi et xj liés par une contrainte CL (cannot-link) doivent être séparés par

A, plus formellement :

(xi; xj) 2 CL ) Link(xi; xj ;A)

On parle alors également de clustering contraint. Les contraintes peuvent être :

– données par l’utilisateur pour guider la recherche d’une solution particulière respectant

des résultats obtenus par d’autres moyens (expérience, etc.) ;

– extraites à partir de sources d’information externes pouvant provenir d’autres vues des

données à traiter.

Ce problème, issu plutôt des applications, à néanmoins donné lieu à beaucoup d’études

théoriques et de propositions d’algorithmes. Il a notamment donné naissance au problème de

l’intégration de connaissances externes pour la recherche d’un clustering de meilleure qualité,

légèrement différent du problème d’origine dans la mesure où les contraintes données sont vues

comme un moyen d’améliorer la performance des algorithmes de clustering.

Historiquement, les premières approches se sont focalisées sur le respect absolu, au sens

de la satisfaction logique, de ces contraintes par un algorithme de clustering A prédéfini. Ces

travaux remontent à l’aube des années 2000 avec la thèse de Kiri Wagstaff alors à l’université

de Cornell, NY, qui fût un des précurseurs de ce champ de recherche. L’idée était de modifier

le coeur des algorithmes de clustering (COBWEBet KM) de telle sorte que les groupes formés

ne devaient violer aucune contraintes [Wagstaff and Cardie, 2000] ; [Wagstaff et al., 2001]. Les

travaux menés notamment par l’équipe de Ian Davidson à Albany, NY, concernant ce type d’intégration

de contraintes, ont vite montré leurs limites au niveau computationnel ainsi qu’au

niveau de la satisfiabilité [Davidson and Ravi, 2005a] ; [Davidson and Ravi, 2005b]. Parallèlement

à ces études, d’autres équipes de recherche, notamment Dan Klein à Stanford ont suggéré

qu’une autre voie pour satisfaire les contraintes données était d’altérer la mesure de proximité

disponible ou dérivée des données afin de s’assurer qu’un algorithme bien choisi réussirait à respecter

les contraintes [Klein et al., 2002]. Ces travaux intègrent notamment un second principe

important dans la thématique de recherche, qui est l’induction de nouvelles contraintes à partir

des premières. Cela permet d’accroître l’efficacité des approches de clustering contraint tout en

conservant une faible quantité de contraintes, possiblement coûteuses, à fournir. La transformation

de la représentation d’origine des individus ou de manière quasi-équivalente, de la mesure

de proximité associée aux individus va devenir le socle de nombreuses approches censées répondre

à la problématique.

L’idée de satisfaire au mieux les contraintes deviendra centrale par la suite, et d’autant plus

que l’on considérera une certaine forme d’incertitude associées aux contraintes que l’on estimera

désormais devoir satisfaire au mieux. Dans ce nouveau contexte de quasi-satisfaction des

contraintes, les travaux ont consisté, pour les algorithmes basés sur l’optimisation d’une fonction

objectif, à modifier le critère de sorte que des contraintes non satisfaites conduisent à une

pénalisation de celui-ci, comme proposé par Sugato Basu [Basu et al., 2004]. Ils ont ensuite été

améliorés dans le but de transformer cette forme de pénalisation de critère, en altération de la

mesure de proximité entre les individus comme l’a proposé Kulis [Kulis et al., 2005]. Pour dresser

un premier bilan de ces approches, nous constatons que l’intégralité d’entre elles nécessitait

d’imposer le critère objectif et/ou l’algorithme de clustering lui-même.

92 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Une autre famille d’approches plus indépendantes vis à vis de l’algorithme de clustering utilisé,

a consisté à considérer le problème de l’intégration des contraintes comme un problème

d’apprentissage de proximité (distance et ou similarité), ou de nouvel représentation des individus

dans laquelle des objets devant être regroupés (resp. séparés) doivent être proches (resp.

éloignés) dans la nouvelle représentation. Une fois la nouvelle proximité induite, n’importe quel

algorithme de clustering peut être appliqué sous réserve de correspondance entre le type de

proximité apprise et le type de proximité sur lequel se fonde l’algorithme (une distance euclidienne

pour KM) [Xing et al., 2002a] ; [Zhang et al., 2003]. L’issu de ces travaux est que l’apprentissage

de cette nouvelle représentation n’est pas du tout remis en cause par les résultats

observés sur l’algorithme de clustering employé. En d’autres termes, finalement, un contrôle de

l’impact de la nouvelle représentation sur le clustering produit n’est pas possible.

Parmi les travaux les plus récents censés répondre à cette nouvelle problématique d’une

intégration contrôlée de contraintes pour améliorer effectivement n’importe quel algorithme de

clustering, nous nous sommes intéressé à BOOSTCLUSTER, proposé par Liu [Liu et al., 2007]. Ce

type d’approche permet de construire de manière incrémentale un ensemble d’hypothèses de

clustering. Les différentes familles d’approches permettant d’intégrer des connaissances externes

sont représentées dans les schémas Fig. 3.1.

X

CL, ML

A

Intégration + A C

X

CL, ML

Intégration A C

X

CL, ML

A H

C

H stable

Intégration

FIGURE 3.1 —Les différents types d’intégration dans le clustering semi-supervisé. Dans l’ordre, ci-dessus,

l’intégration de contraintes dans l’algorithme A prédéfini, l’intégration de contraintes dans la définition

de la proximité, avant l’application de l’algorithme A quelconque et enfin l’intégration contrôlée par

l’algorithme de clustering quelconque A.

La contribution de ce chapitre correspond à des alternatives à cette approche, selon différents

paradigmes de résolution. La première contribution BOC se fonde sur le principe du

boosting de manière semblable à BOOSTCLUSTER. La seconde contribution UZABOC utilise des

éléments d’optimisation numérique. Le chapitre est organisé comme suit : après avoir détaillé

plus formellement les approches clés du développement autour du clustering semi-supervisé ou

clustering contraint, citées précédemment de manière introductive, je présenterai les concepts

apportés par BOOSTCLUSTER puis les concepts que nous proposons ainsi que les différentes approches.

Nous conclurons sur notre étude de la problématique après avoir réalisé une étude

empirique de l’approche et dressé quelques perspectives.

3.3 Approches par satisfaction des contraintes

3.3.1 COP-KMEANS : les K-moyennes sous contraintes

L’approche COP-KMEANS [Wagstaff et al., 2001] est parmi les premières approches de clustering

semi-supervisé. Il s’agit d’une approche discriminative basée sur l’algorithme KM (1.3.1.1).

Objectif

3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 93

L’objectif est de déterminer les prototypes optimaux d’un ensemble de nk groupes de telle

sorte que les groupes ainsi constitués ne violent aucune contrainte. On peut formaliser cet objectif

sous la forme d’un problème d’optimisation sous contraintes de la manière suivante :

min

c; C

QKM(c;C) = min

c;C

Xnk

k=1

X

xi2Ck

jjxi 􀀀 ckjj22

s:t: C2

k [ \ CL = ; 8Ck 2 C

1_k_nk

(C2

k \ML) = ML

(3.1)

L’espace des solutions associé à ce problème d’optimisation est alors réduit pour ne contenir

que les solutions satisfaisant effectivement les contraintes ML et CL données.

Algorithme

Le problème étant trop difficile à résoudre analytiquement, les auteurs proposent alors une

approche purement algorithmique (algorithme 17) pour le résoudre. Ainsi, à l’image de KM, l’algorithme

alterne une mise à jour des groupes et des prototypes de groupes selon le principe de

résolution d’un système d’équation par une méthode itérative en partant d’une initialisation prédéfinie

des prototypes de groupe. L’initialisation est aléatoire dans le but d’avoir plus de chance

d’atteindre l’optimum global si il existe, après plusieurs exécutions de l’algorithme. La mise à

jour (ou construction) des groupes C_

k est différente de la règle classique de KM puisqu’elle est

conditionnée par le respect de toutes les contraintes. Pour ce faire, les auteurs proposent un

algorithme heuristique. L’idée est de parcourir dans l’ordre l’ensemble X et d’affecter chaque

individu xi au groupe le plus proche tel qu’aucune contrainte ne soit violée. Cette affectation

peut se formaliser par la règle :

8xi 2 X 8(xi; xj) 2 ML 8(xi; xj0) 2 CL; (3.2)

9C_

k

􀀀

(ck = arg min

c2fc1;:::;cnk

g

Xnk

k=1

X

xi2C_

k

jjxi 􀀀 cjj22) ^ xj 2 C_

k ^ xj0 =2 C_

k

_

) C_

k = C_

k [ fxig

Notons qu’il est possible de ne pouvoir affecter xi à aucun groupe, si notamment pour tous

les groupes il existe un individu xj dans ceux-ci tel que (xi; xj) 2 CL. De plus il s’agit d’une règle

heuristique qui rend la recherche de la solution optimale gloutonne, dans le sens où l’obtention

de la solution optimale est dépendante de l’ordre de parcours des individus lors de la construction

des groupes. La règle de mise à jour des prototypes de groupes, elle, est la même que celle

de KM, i.e. c_

k est le centre de gravité du groupe C_

k :

c_

k =

1

jCkj

X

xi2Ck

xi

Discussion

Le premier problème qui n’en est réellement un que selon le cadre applicatif, est qu’il peut

ne pas exister de solution. Dans un contexte applicatif où l’utilisateur veut obtenir un clustering

des individus satisfaisant les contraintes, l’approche est limitée, car si l’ensemble des contraintes

forme une théorie inconsistante, alors il n’existe par définition aucun moyen de les satisfaire

toutes simultanément et l’espace des solutions associé au problème d’optimisation est vide.

94 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Algorithme 17 Cop K-moyennes

ENTRÉES : X, nk, ML, CL

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation aléatoire des nk centres de groupes fc1; :::; cnkg

2 : Mise à jour des groupes Ck 8k 2 [1::nk] en utilisant la règle d’affectation (3.2)

3 : Mise à jour des centres de groupe ck 8k 2 [1::nk] en utilisant (3.3)

4 : Si QKM change alors aller en 2

Ainsi, il est préférable de pouvoir relâcher quelques contraintes pour être sûr de pouvoir fournir

un clustering à l’utilisateur, mais cette tâche est difficile au sens de la complexité, puisque le

problème de satisfiabilité de l’ensemble des contraintes est à lui seul NP-complet. Le second problème

est que l’algorithme est dépendant de l’ordre de parcours des individus lors de l’étape de

construction des groupes ce qui rend l’application de l’algorithme moins bien contrôlé et atténue

les garanties sur l’obtention de l’optimum (toujours local).

3.3.2 CCHC : clustering semi-supervisé hiérarchique en lien complet

Une autre approche purement algorithmique a été développée par [Klein et al., 2002]. Elle

vise a tirer parti d’un faible ensemble de contraintes, dans le but d’induire un plus grand ensemble

de contraintes favorisant l’amélioration de la qualité d’un clustering. L’algorithme s’appuie

sur le postulat qu’un individu xi proche d’un autre individu xj impliqué dans une contrainte

(xj ; xl) 2 ML (resp. (xj ; xl) 2 CL) doit être impliqué dans le même type de contrainte (xi; xl) 2

ML (resp. (xi; xl) 2 CL), plus formellement :

8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 ML) ) (xi; xl) 2 ML

8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 CL) ) (xi; xl) 2 CL

Algorithme

Pour réaliser effectivement l’idée du postulat, les auteurs proposent de réaliser implicitement

une projection non linéaire des individus de X dans un certain espace non défini. Partant de

X _ Rp et d’une mesure de distance sur Rp, les auteurs proposent une gestion séparée des

contraintes de type ML et des contraintes de type CL. Pour les contraintes ML, les auteurs

proposent d’imposer directement une valeur de distance nulle entre les individus impliqués dans

une de ces contraintes, ainsi :

8(xi; xj) 2 X2; (xi; xj) 2 ML ) d(xi; xj) = 0 (3.3)

L’étape d’induction de nouvelles contraintes est réalisée en appliquant un algorithme de plus

court chemin entre toutes les paires d’individus, dans le but de rétablir pour d les propriétés

d’une métrique pour Rp. Par ce choix d’intégration de contraintes ML, on espère que tout

algorithme de clustering les satisfasse normalement. La gestion des contraintes CL est quant à

elle réalisée, dans un premier temps, en imposant une valeur maximum de distance entre les

individus impliqués dans de telles contraintes :

8(xi; xj) 2 X2; (xi; xj) 2 CL ) d(xi; xj) = max

(xi;xj )2X2

d(xi; xj) + 1 (3.4)

Ce type d’intégration ne garanti pas qu’un algorithme de clustering satisfasse exactement

les contraintes CL. Les auteurs proposent dans ce cas de choisir un algorithme de clustering

3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 95

particulier pour respecter l’ensemble des contraintes : l’algorithme de clustering hiérarchique

par lien complet CLINK (section 1.2.2 du chapitre 2). Ainsi, si deux amas (groupes) A1 et A2

contiennent respectivement deux individus x1 et x2 impliqués dans une même contrainte CL,

alors la distance entre A1 et A2 est la plus élevée et les amas ne sont pas fusionnés par CLINK (2).

Les individus impliqués dans une contrainte ML sont quant à eux regroupés dès la base du

dendrogramme.

Algorithme 18 CCHC

ENTRÉES : X, d(:; :), nk, ML, CL

SORTIES : D

1 : Intégrer les contraintes ML par (3.3)

2 : Appliquer l’algorithme du plus court chemin 8(xi; xj) 2 X2

3 : Intégrer les contraintes CL par (3.4)

4 : Construire D par CLINK

Discussion

L’approche CCHC s’avère extrêmement efficace pour satisfaire absolument les contraintes

données et induire de bonnes contraintes lorsque le postulat de départ est vérifié. Cependant

la mise en oeuvre par altération de la proximité est trop brutale, et la description des individus

perd son sens, ou au moins aucun lien n’est fait a posteriori entre la nouvelle distance apprise et

la description des individus lorsqu’elle existe (importance de certains descripteurs relativement

aux autres). De plus, il peut arriver à l’image de COP-KMEANS qu’il n’existe pas de solutions

satisfaisant les contraintes. Les cas extrêmes sont rares, mais ils existent notamment :

– si tous les individus de X sont impliqués dans l’ensemble des contraintes ML, alors un

clustering de nk _ 2 groupes violera au moins une de ces contraintes.

– si l’ensemble des contraintes CL contient une clique de taille c, alors un clustering de nk < c

groupes violera au moins une de ces contraintes.

Finalement, les auteurs s’attachent à préserver la caractérisation de la proximité apprise d

qui doit être une métrique. Ceci est validé par l’application de l’algorithme de plus court chemin

sur toutes les paires d’individus. En revanche lors de l’intégration des contraintes CL, cette

caractérisation est perdue. En effet, si on dispose de (x1; x2; x3; x4) 2 X3 tels que (x1; x2) 2 ML,

(x2; x3) 2 ML, (x1; x3) 2 CL et x4 n’est impliqué dans aucune contrainte, alors on a :

d(x1; x3) = max

(xi;xj )2X2

d(xi; xj) + 1 = D

d(x1; x2) = d(x2; x3) = 0

et ainsi D = d(x1; x3) > d(x1; x2) + d(x2; x3) = 0 ce qui contredit l’inégalité triangulaire (cf.

section 1.5.4).

3.3.3 SSEM : estimation d’un mélange de modèle semi-supervisé

Le clustering par estimation de paramètre d’un modèle de mélange gaussien a également été

étendu au clustering semi-supervisé par [Shental et al., 2003]. Dans cette approche, les auteurs

proposent d’intégrer les deux types de contraintes ML et CL a travers la définition d’un modèle

adapté étendant le modèle de mélange simple.

Modèle

96 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Pour rappel, le modèle de mélange (cf. section 1.4.2) est défini par :

f(Xi; _) =

Xnk

k=1

_kfk(xi; _k)

où les _k et les fk(xi; _k) correspondent respectivement aux valeurs de probabilité a priori de

la sélection de la k-ième composante et à la fonction de densité gaussienne correspondant à la

variable Xi paramétrée par _k = (ck;_k).

Les auteurs proposent de reprendre l’expression du modèle d’une part pour intégrer les

contraintes ML. Ainsi ils redéfinissent l’échantillon X comme l’union de sous-ensembles disjoints

appelés chunklets :

X =

[nl

l=1

Xl

où chaque chunklet Xl correspond à un ensemble d’individus devant partager la même étiquette

l, et par extension, liés par une contrainte ML. nl désigne le nombre naturel de chunklets défini

par les contraintes ML ou par l’absence de contraintes. Ainsi, les individus non impliqués dans

une contrainte ML définissent à eux seuls un chunklet. Dans ce contexte, les chunklets sont

complétés par un vecteur aléatoire Zl indiquant pour chaque individu xi d’un chunklet Xl le

groupe auquel il semble appartenir et les données X sont complétées par Z = (Z1; : : : ;Znl).

Pour l’intégration des contraintes CL les auteurs remarquent que l’hypothèse d’une distribution

i.i.d des variables cachées Zl correspondantes aux chunklets est violée car il faut maintenir le

fait que deux individus xi et xj , appartenant respectivement aux chunklets Xl1 et Xl2 et tels

que (xi; xj) 2 CL entraîne que les réalisations des variables cachées Zl1 et Zl2 doivent être

différentes :

8(xi; xj) 2 Xl1 _ Xl2 (xi; xj) 2 CL ) zl1 6= zl2

Cette condition peut être réalisée en introduisant une dépendance entre les variables cachées

Zl. Le modèle de mélange gaussien, après introduction des chunklets peut alors être étendu en

un réseau de markov définit par :

– les sommets qui sont soit les variables observées Xi = xi correspondant aux individus soit

les variables cachées Zl indiquant l’étiquette des individus du chunklet Xl correspondant ;

– les arêtes connectant chaque variable cachée Zl à un individu xi du chunklet que celle-ci

représente sont caractérisées par leur fonction potentiel f(xijZl = zl; _) avec e(xi) = zl

e : X 7! f1::nlg donne l’identifiant de l’étiquette de xi. Un tel identifiant peut être obtenu

à partir des contraintes ML et CL de départ ;

– les arêtes connectant les variables cachées Zl1 et Zl2 entre elles sont caractérisées par leur

fonction potentiel 1 􀀀 _zl1 ;zl2

_ est le symbole de Kronecker. Ainsi la valeur de cette

fonction est binaire et maximale lorsque toute paire d’individus tirés parmi deux chunklets

liés et différents, ont une étiquette de groupe différente :

8(xi; xj) 2 Xl1 _ Xl2 ;

􀀀

l1 6= l2 ) e(xi) 6= e(xj)

_

) _(zl1 ; zl2) = 0

Un tel modèle graphique est représenté en figure 3.2.

Objectif

Le critère objectif à optimiser correspond toujours à la vraisemblance des données X complétée

par Z sous l’hypothèse d’existence des chunklets. Soit Es l’évènement : « Z se conforme aux

3.3. APPROCHES PAR SATISFACTION DES CONTRAINTES 97

Z1 Z3

Z2

x1 x4

x2 x3

FIGURE 3.2 — Réseau de Markov pour le clustering semi-supervisé correspondant aux contraintes

(x2; x3) 2 ML et (x1; x3) 2 CL, (x3; x4) 2 CL. Les individus x2 et x3 doivent appartenir au même

chunklet, traduit par le fait qu’ils partagent la même étiquette donnée par la réalisation de la variable Z2.

Les contraintes CL sont traduites par les liens entre les variables cachées correspondantes aux individus

impliqués dans ces contraintes. Des contraintes (x1; x2) 2 CL et (x2; x4) 2 CL sont implicitement créées.

contraintes », la vraisemblance des paramètres étant donnée le modèle est donné par :

L(_;X;Z;Es) =

1

f(Esj_)

YL

l=1

Y

xi2Xl

_jzlj

zl f(xijZl = e(xi); _) (3.5)

Y

(xi;xj )2CL

(1 􀀀 _e(xi);e(xj )) (3.6)

et le problème d’optimisation consiste à maximiser la log-vraisemblance des données complétées

:

max

_

QCONSEM(_) = max

_

log L(_;X;Z;Es) (3.7)

Algorithme

L’algorithme permettant de résoudre le problème d’optimisation 19 est complètement basé sur

EM. Il alterne une étape (E) de calcul de l’espérance des variables cachées correspondant aux

chunklets tel qu’elle soit conformes aux contraintes, et une étape (M) d’estimation des meilleurs

paramètres selon les dernières valeurs de probabilité a posteriori.

L’étape E permet de réévaluer les valeurs de probabilité a posteriori zik par :

zik = f(Zi = kjXi = xi;__;Es)

=

_jXlj

k

Ynl

l=1

Y

xi2Xl

f(xijzl = k = e(xi); _k)

Xnk

k0=1

_jXlj

k0

Ynl

l=1

Y

xi2Xl

f(xijzl = k0 = e(xi); _k0)

(3.8)

L’étape M permet de réévaluer les paramètres _ du modèle. Dans le cas de l’approche proposé,

le modèle de mélange est gaussien, ainsi chaque composante du mélange correspond à une

loi normale paramétrée par sa moyenne ck et sa variance _k. celles-ci sont calculés de manière

98 CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

optimale par :

ck =

X

xi2Xi

xif(Zl = e(xi)jXi = xi;_;Es)

X

xi2Xi

f(Zl = e(xi)jXi = xi;_;Es)

(3.9)

et

_k =

Xnl

l=1

X

xi2Xl

(xi 􀀀 ck)(xi 􀀀 ck)>f(Zl = e(xi)jXi = xi;_;Es)

Xnl

l=1

X

xi2Xl

f(Zl = e(xi)jXi = xi;_;Es)

(3.10)

Algorithme 19 EM contraint

ENTRÉES : X, nk, ML, CL

SORTIES : C = fC1; :::;Cnkg

1: Initialisation aléatoire des nk paramètres des lois f(c1;_1); :::; (cnk ;_nk )g

2: Étape E : Mise à jour des zik en utilisant (3.8)

3: Étape M : Mise à jour des ck et _k en utilisant (3.9) et (3.10)

4: Si QCONSEM change alors aller en 2

5: Ck = fxi 2 Xjzik = max

k02[1::nk]

zik0g 8k 2 [1::nk]

3.4 Approches par objectif pénalisé

3.4.1 PCKM : les K-moyennes contraintes pénalisées

Parmi les premières approches de clustering semi-supervisé autorisant le non respect de

quelques contraintes au profit de l’obtention d’une solution intéressante, [Basu et al., 2004] ont

proposé une variante de KM (1.3.1.1) pour laquelle la solution optimale au sens du critère des

K-moyennes doit pouvoir respecter au mieux les contraintes données.

Objectif

Le problème prend alors la forme d’un critère à optimiser, correspondant au critère de KM :

– pénalisé par un terme modélisant le non respect des contraintes CL;

– récompensé par un terme modélisant le respect des contraintes ML;

Si une contrainte est violée, alors un poids est ajouté au critère à minimiser. Ainsi le problème

d’optimisation est représenté de la manière suivante :

min

c; C

QPCKM(c;C) (3.11)

= min

c; C

1

2

Xnk

k=1

X

xi2Ck

jjxi 􀀀 ckjj22

+

Xnk

k=1

X

(xi;xj )2C2

k

(xi;xj )2CL

wij +

Xnk

k=1

Xnk

k=1

k6=k

X

(xi;xj )2Ck_Ck

(xi;xj )2ML

wij

où les wij sont des paramètres donnés représentant les poids associés aux contraintes. Ils traduisent,

pour chaque contrainte, l’impact de la violation de celle-ci sur le critère objectif de

KM.

3.4. APPROCHES PAR OBJECTIF PÉNALISÉ 99

Algorithme

L’algorithme développé (algorithme 20) pour atteindre un optimum local du critère QPCKM

est semblable à KM. Il alterne une étape d’affectation des individus à leur groupe le plus proche

au sens de l’inertie pénalisée, et une étape de mise à jour des prototypes de ces groupes :

1. la phase d’affectation consiste à construire in extenso les nk groupes par :

C_

k = fxi 2 X j (3.12)

arg min

c2fc1;:::;cnk

g

1

2

jjxi 􀀀 cjj22

+

X

xj2Ck

(xi;xj )2CL

wij +

Xnk

k=1

k6=k

X

xj2Ck

(xi;xj )2ML

wij = ckg

2. la phase de mise à jour des prototypes permet de redéfinir les éléments représentatifs de

ces groupes en recalculant les barycentres :

c_

k =

1

jCkj

X

xi2Ck

xi (3.13)

Cependant pour faciliter la recherche d’une solution satisfaisant au mieux les contraintes,

et ainsi éviter de tomber trop facilement dans des optimums locaux non souhaités, les auteurs

proposent d’adapter la procédure d’initialisation. Ainsi chaque ensemble de contraintes ML et

CL est augmenté le plus possible selon une logique de satisfaction associée aux contraintes. Si

deux individus xi et xj sont liés par une contrainte ML et si xj et xk sont liés par une contrainte

ML, alors xi et xk sont également liés par une contrainte ML :

8(xi; xj ; xk) 2 X3; (3.14)

(xi; xj) 2 ML^ (xj ; xk) 2 ML ) ML = (xi; xk) [ML

Ainsi l’opération de clôture transitive est appliquée au graphe associé aux contraintes ML.

Soit N l’ensemble des n_ composantes connexes du graphe des ML :

N = fN_g_2[1::n_]

et soit N(xi) = fxj 2 N_ j xi 2 N_g alors l’ensemble des contraintes CL est augmenté de telle

sorte que s’il existe une contrainte CL entre xi et xj tels que N(xi) 6= N(xj), alors une contrainte

CL est créée pour toute paire (xk1 ; xk2) 2 N(xi) _ N(xj) :

8(xi; xj ; xk) 2 X3; (3.15)

8xk 2 N(xi); (xi; xj) 2 CL ^ N(xi) 6= N(xj) ) CL = CL [ (xj ; xk)

8xk 2 N(xj); (xi; xj) 2 CL ^ N(xi) 6= N(xj) ) CL = CL [ (xi; xk)

La procédure d’initialisation consiste ensuite à choisir les nk centres initiaux respectant au

mieux les contraintes i.e. tirés parmi les n_ composantes connexes de N :

– si nk _ n_ alors les prototypes initiaux sont choisis parmi les nk composantes connexes les

plus grandes en cardinalité ;

– si nk < n_ alors les prototypes initiaux sont choisis parmi les n_ composantes connexes,

puis ensuite parmi les individus liés par une contrainte CL avec toutes les composantes

connexes de N. Enfin les centres initiaux éventuels restant à initialiser sont tirés aléatoirement.

Discussion

100CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Algorithme 20 PCKM

ENTRÉES : X, nk, ML, CL, W

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation des nk centres de groupes fc1; :::; cnkg

2 : Mise à jour des groupes Ck en utilisant (3.12)

3 : Mise à jour des centres de groupe ck en utilisant (3.13)

4 : Si QPCKM change alors aller en 2

L’approche PCKM est une des premières approches exprimée explicitement comme la recherche

d’une solution optimale à un critère objectif où l’intégration des contraintes est réalisée

par une pénalisation de celui-ci. On peut reprocher à l’approche PCKM que les poids wij soient

fixés à l’avance et que leur définition ne soit pas explicite. Or ces poids sont centraux dans la

recherche d’une solution satisfaisant effectivement les contraintes. Une amélioration à envisager

serait de les ré-estimer lors du déroulement de l’algorithme.

3.4.2 SSKM : les K-moyennes semi-supervisées

L’approche SSKM de [Kulis et al., 2005] reprend l’idée de PCKM mais propose un algorithme

interprétable de façon complètement différente de ce dernier. Il s’agit d’une approche

discriminative qui reprend l’objectif de PCKM en y incorporant des modifications mineures.

Objectif

Le problème est posé comme la minimisation du critère d’inertie de KM encore une fois réajusté

par un terme relatif au respect des contraintes ML et CL :

min

c; C

QSSKM(c;C) (3.16)

= min

c; C

Xnk

k=1

X

xi2Ck

jjxi 􀀀 ckjj22

+

Xnk

k=1

X

(xi;xj )2C2

k

(xi;xj )2CL

wij

jCkj

􀀀

Xnk

k=1

X

(xi;xj )2C2

k

(xi;xj )2ML

wij

jCkj

Le terme d’inertie de KM est cette fois pénalisé par le non respect des contraintes CL, et

récompensé par le respect des contraintes ML.

Algorithme

[Kulis et al., 2005] ont montré que ce critère pouvait se ré-exprimer plus simplement en utilisant

l’astuce du noyau (cf. section 2.4.3). Ainsi minimiser le critère QSSKM revient à minimiser

le critère QKM pour lequel les individus sont projetés par l’application _ inconnue vers un espace

de représentation P muni du produit scalaire Kij = h_(xi); _(xj)i :

QSSKM(c;C) = QKKM(c;C) =

Xnk

k=1

X

xi2Ck

jj_(xi) 􀀀 ckjj22

Kij = hxi; xji +Wij et W est construit par :

Wij =

_

wij 8(xi; xj) 2 ML

􀀀wij 8(xi; xj) 2 CL

3.5. APPROCHES PAR ALTÉRATION DE LA PROXIMITÉ 101

L’algorithme de résolution (Algorithme 22) est alors connu et correspond à un simple KM à

noyau, ou KKM, appliqué sur le noyau K = S + W S est la matrice des produits scalaires

dans l’espace d’origine (avant projection par _) : Sij = hxi; xji. Il consiste alors, à partir d’une

initialisation de prototypes de groupes tirés parmi les individus, à alterner :

1. l’étape d’affectation des individus à leur groupe le plus proche :

C_

k = fxi 2 Xj arg min

c2fc1;:::;cnk

g

jj_(xi) 􀀀 cjj22

= ckg (3.17)

2. l’étape de mise à jour implicite des prototypes, par un calcul de leurs distances par rapport

aux individus dP (xi; c_

k) = jj_(xi) 􀀀 ckjj22

:

jj_(xi) 􀀀 ckjj22

= Kii 􀀀 2

X

xj2Ck

Kij

jCkj

+

X

xj2Ck

X

xl2Ck

Kjl

jCkj2 (3.18)

L’algorithme revient donc à appliquer KM sur X où les distances entre individus sont altérées

a priori pour se conformer aux contraintes CL et ML.

Algorithme 21 SSKM

ENTRÉES : X, nk, ML, CL, W

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation des nk centres de groupes fc1; :::; cnkg

2 : Construire le noyau K = S +W

3 : Mise à jour des groupes Ck en utilisant (3.17)

4 : Mise à jour des distances aux centres dP (xi; c_

k) par (3.18)

5 : Si QPCKM change alors aller en 2

Discussion

L’approche SSKM permet de faire le lien entre les approches de clustering semi-supervisé basé

sur la pénalisation et celles basé sur l’altération de la proximité. En effet, les auteurs établissent

que la recherche d’une solution optimale de leur critère pénalisé est obtenable au travers d’un

clustering classique après que les mesures de distance entre les individus aient été redéfinies.

Dans le contexte actuel des recherches pour le clustering semi-supervisé, on regrette l’imposition

de l’algorithme KM, mais cela est nécessaire pour garantir un contrôle complet sur l’optimisation.

3.5 Approches par altération de la proximité

3.5.1 LLMA : adaptation localement linéaire de la métrique

L’approche d’adaptation localement linéaire de la métrique [Chang and Yeung, 2004] vise

à trouver une projection de l’ensemble des individus de X telle que les individus devant être

classés ensembles se retrouvent plus proches dans cet espace de projection. L’originalité de l’approche

réside dans les propriétés de cette projection. En effet, les auteurs proposent de trouver

une projection qui soit :

– localement linéaire, dans le sens où les individus impliqués dans les contraintes ML (de

base ou induites par transitivité) ainsi que les individus proches de ceux-ci sont projetés

linéairement dans un nouvel espace P;

– globalement non linéaire, dans le sens où tous les individus, et en particulier ceux qui ne

sont pas concernés par des contraintes, sont projetés non linéairement dans P.

102CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Objectif

La projection _ : Rp 7! Rp est linéaire et définie explicitement sous la forme :

_(xl) = xl +

X

(xi;xj )2ML

K1libi = xl + BK1l (3.19)

K1li = e

􀀀

jjxi􀀀xljj22

2_2

1 (3.20)

modélise une similarité entre les individus xi et xl. Ainsi plus un individu xl est loin des individus

impliqués dans au moins une contrainte ML moins la projection altère xl, et _(xl) 7! xl.

Le problème prend la forme d’un critère objectif pénalisé pour lequel la solution optimale correspond

aux paramètres de la projection : la matrice B = (b1; : : : ; bnC ). L’objectif est alors de

minimiser la distance entre _(xi) et _(xj) 8(xi; xj) 2 ML tout en préservant les écarts entre xi

et xj 8(xi; xj) =2 ML :

min

B

QLLMA(B) (3.21)

= min

B

X

(xi;xj )2ML

jj_(xi) 􀀀 _(xj)jj22

+ _

X

(xi;xj )2X2

K2ij_ij

nC correspond au nombre d’individus impliqués dans les contraintes _ij = (jj_(xi)􀀀_(xj)jj2􀀀

jjxi 􀀀xj jj2)2 correspond à l’écart entre les distances avant et après projection entre les individus

xi et xj . K2 est une fonction de similarité prédéfinie gaussienne entre les individus xi et xj avant

projection :

K2ij = e

􀀀

jjxi􀀀xj jj22

_2

2 (3.22)

La valeur K2ij joue le rôle de poids pour le second terme du critère QLLMA. Ainsi plus deux

individus xi et xj seront proches au sens de la distance euclidienne, plus ils seront similaire au

sens de K2 et plus on privilégiera le fait de conserver cette valeur de distance après projection,

sauf dans le cas où ces individus sont impliqués dans une contrainte ML donnée ou induite.

Algorithme

L’algorithme consiste à alterner différentes étapes afin de déterminer la projection optimale

caractérisée par B_ :

– une mise à jour des paramètres de la mesure de similarité K1 : _1 ;

– une mise à jour des paramètres de la mesure de similarité K2 : _2 ;

– la mise à jour optimale des variables bi ;

– la redéfinition de la position des individus dans l’espace.

Les paramètres des mesures de similarités K1 et K2 sont déterminés de manière heuristique

par :

_1 = _1

Vp

t

; _2 = _2_1 (3.23)

_1 _ 0, _2 _ 0 sont des constantes données et V correspond à la valeur de distance moyenne

entre individus projetés :

2

n(n 􀀀 1)

X

(xi;xj )2X2

i<j

jj_(xi) 􀀀 _(xj)jj22

3.5. APPROCHES PAR ALTÉRATION DE LA PROXIMITÉ 103

ainsi plus le nombre d’itérations est élevé, plus le paramètre de variance _1 diminue, entraînant

également une diminution de _2. Au bout du compte les valeurs de similarité correspondantes

K1ij et K2ij tendent vers les valeurs extrêmes 0 ou 1 pour toute paire d’individus (xi; xj) 2 X2.

Étant données de telles valeurs de _1 et _2 et la position courante des individus xi, les paramètres

B de la prochaine transformation sont calculés de manière optimale ou quasi optimale.

Décrire les conditions d’optimalité de la solution B_ = (b_1

; : : : ; b_

nC ) i.e. rBQ = 0 ne permet

pas d’obtenir une forme close de la solution. Cependant, les auteurs proposent d’approximer

une telle solution en maintenant dans l’expression du critère une contrainte _ij = 0. Dans ce

contexte B_ peut être déterminé explicitement par :

B_ = 􀀀B1B.

2 (3.24)

avec

B1 =

X

(xi;xj )2X2

_􀀀

sij + _K2ij(1 􀀀

jjxi 􀀀 xj jj22

jj_(xi) 􀀀 _(xj)jj22

)

_

: (_(xi) 􀀀 _(xj))(K1:i 􀀀 K1:j )>

_

B2 =

X

(xi;xj )2X2

_􀀀

sij + _K2ij(1 􀀀

jjxi 􀀀 xj jj22

jj_(xi) 􀀀 _(xj)jj22

)

_

: (K1:i 􀀀 K1:j )(K1:i 􀀀 K1:j )>

_

et

sij =

_

1 si (xi; xj) 2 ML

0 sinon

Les auteurs proposent également un autre moyen d’optimiser leur critère sans faire l’hypothèse

restrictive _ij = 0 mais cette seconde procédure, reposant sur un principe de majoration

itérative ne sera pas détaillée davantage.

Algorithme 22 LLMA

ENTRÉES : X, X, nk, ML, W, tf

SORTIES : X0

1 : Réaliser la clôture réflexive et transitive de ML

2 : Initialiser _(xi) = xi 8xi 2 X, t = 1

3 : Mise à jour de _1 et _2 en utilisant (3.23)

4 : Mise à jour de K1 et K2 en utilisant (3.20) et (3.22)

5 : Mise à jour optimale de B par (3.24)

6 : Si t = tf alors t = t + 1 et aller en 3

Discussion

L’approche LLMA est intéressante en ce qui concerne la gestion des contraintes ML. Seuls

les individus impliqués dans de telles contraintes sont effectivement projetés de telle sorte à

être rapprochés. En revanche, l’approche ne permet pas la gestion de contrainte de type CL

ce qui limite son applicabilité dans les contextes plus actuels. De plus l’approche souffre de

quelques artefacts pour garantir l’obtention d’une solution optimale du problème d’optimisation

ainsi qu’une convergence de l’algorithme associé. La décroissance programmée des variances

associées aux gaussiennes K1 et K2 rappellent l’utilisation du paramètre de température dans

les approches de type SOM (cf. section 1.3.2.2).

104CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

3.6 Approches indépendantes de l’algorithme de clustering

Les approches d’apprentissage de distances ou de similarités peuvent être vus comme des

approches indépendantes de l’algorithme de clustering. L’intégration des contraintes se fait alors

en amont de l’application du clustering. Une distinction est cependant faite dans la mesure où

l’on s’intéresse à l’impact de la mesure de proximité apprise sur la performance de l’algorithme

de clustering employé dans le but de corriger cet apprentissage de proximité pour que celle-ci

soit en adéquation avec :

– les contraintes ML et CL;

– l’amélioration de la performance de A;

– la distribution naturelle des individus dans l’espace, X.

Le principe de fonctionnement de cette famille d’approches initiées par BOOSTCLUSTER

[Liu et al., 2007] est de générer successivement un ensemble d’hypothèses H de clustering selon

différentes mesures de proximité apprises de telle sorte à respecter les contraintes utilisateurs.

A partir de cet ensemble d’hypothèses est construit le clustering C, qui dans ce contexte devra

être de meilleure qualité qu’un clustering obtenu selon les techniques d’intégration simple dans

la proximité.

3.6.1 BC : BoostCluster

L’approche BC [Liu et al., 2007] permet de s’abstraire de l’algorithme de clustering employé

afin de trouver un bon partitionnement respectant les contraintes. Il propose d’intégrer des informations

de semi-supervision de type ML et CL dans n’importe quel algorithme de clustering

A selon des techniques empruntées à l’apprentissage de distances. En particulier, la distance apprise

s’adapte à l’algorithme employé afin que celui-ci satisfasse le mieux possible les contraintes

données.

Objectif

Le principe est d’apprendre une matrice de similarité K de sorte que celle-ci respecte les

contraintes, ainsi :

(xi; xj) 2 ML doit induire une valeur de Kij élevée ;

(xi; xj) 2 CL doivent induire une valeur de Kij faible ;

– de plus, l’apprentissage de K doit être validé par l’algorithme de clustering A. Ainsi K

réalise un compromis entre l’intégration optimale des contraintes et la satisfaction de celleci

par A.

Le problème prend alors la forme d’un programme d’optimisation où il s’agit de trouver une

bonne solution au problème :

min

K

QBC = min

K

_ X

(xi;xj )2ML

e􀀀Kij

__ X

(xi;xj )2CL

eKij

_

(3.25)

La difficulté réside dans le fait qu’il n’est pas possible d’estimer à l’avance la satisfaction

par A (car l’objectif de A n’est pas connu) des contraintes ML et CL étant donnée une valeur

de K. Ainsi cette information ne peut être traduite directement dans l’expression du critère à

optimiser. De plus, la matrice K_ optimale n’est pas unique, son expression est connue et elle ne

correspond pas nécessairement à la meilleure matrice pour l’amélioration de la performance de

A. La matrice K_ optimale est donnée par :

Kij =

8<

:

1 8(xi; xj) 2 ML

0 8(xi; xj) 2 CL

_ij 8(xi; xj) =2 ML[ CL

3.6. APPROCHES INDÉPENDANTES DE L’ALGORITHME DE CLUSTERING 105

_ij est une valeur arbitraire. Ainsi, l’objectif est d’améliorer le critère QBC en cherchant K tel

que la performance de A soit améliorée au mieux. Ce faisant, K est alors une bonne solution.

Algorithme

L’algorithme proposé (algorithme 23) pour résoudre ce problème d’optimisation consiste à alterner

trois étapes garantissant l’obtention d’unK améliorant son adéquation avec les contraintes

et améliorant la performance de A sur le respect des contraintes. Soit K(0) = 0 la valeur initiale

de la matrice K, le K_ optimal est construit de manière incrémentale à l’issu de la convergence

de la suite (K(t))t2[1::tf ] K(t) = f(K(t􀀀1)). La première étape consiste à proposer une

transformation de X en X_ de sorte que :

– des individus xi et xj tels que (xi; xj) 2 ML soient davantage rapprochés relativement

aux autres paires d’individus, si leur valeur de similarité est faible (cond 1) ;

– des individus xi et xj tels que (xi; xj) 2 CL restent d’autant éloignés que leur valeur de

similarité est forte (cond 2).

Pour cela des poids wij sont calculés tels que :

wij =

8>>>><

>>>>:

e􀀀Kij

ZML

8(xi; xj) 2 ML

􀀀

eKij

ZCL

8(xi; xj) 2 CL

(3.26)

ZML et ZCL sont des facteurs de normalisation. Ainsi, les poids reflètent exactement les

conditions (cond 1) et (cond 2).

Ces poids servent à déterminer un sous espace de projection P_ 2 Rp_s solution du problème

d’optimisation :

max

P

trace(P>X>WXP)

s:t: P>P = Ids

(3.27)

s est la dimension du sous-espace (fixé à l’avance dans BC) et W est la matrice des poids

définit par Wij = wij .

La nouvelle représentation X_ s’obtient alors en projetant X via P_ X_ = XP_. L’application

de l’algorithme A sur X_ permet d’observer son comportement face à la nouvelle représentation.

Soit H(t) le clustering produit par A :

H(t)

ij =

_

1 si Link(xi; xj ;A)

0 si Link(xi; xj ;A)

(3.28)

H prend la forme d’une hypothèse car dépendante de la valeur de similarité courante K(t).

Cette hypothèse permet de réévaluer la valeur de similarité K selon la simple équation :

K(t) = K(t􀀀1) + _(t)H(t) (3.29)

_(t) _ 0 quantifie le ratio du nombre de contraintes satisfaites sur le nombre de contraintes

violées :

_(t) =

1

2

log

0

BBBBBBB@

X

(xi;xj )2ML

H(t)

ij =1

jwij j

X

(xi;xj )2ML

H(t)

ij =0

jwij j

_

X

(xi;xj )2CL

H(t)

ij =0

jwij j

X

(xi;xj )2CL

H(t)

ij =1

jwij j

1

CCCCCCCA

(3.30)

106CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Le premier terme entre parenthèses correspond à la part (pondérée) de contraintes ML

satisfaites et le second, à la part (pondérée) de contraintes CL satisfaites.

Algorithme 23 BC

ENTRÉES : X, nk, ML, CL

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation de K = 0, t = 0

2 : Calcul de W par (3.26)

3 : Calcul de X_ = XP_ après résolution de (3.27)

4 : Estimation de H(t) en appliquant A sur X_ par (3.28)

5 : Mise à jour de K selon (3.29)

6 : Si K ne converge pas faire t = t + 1 et aller en 2

7 : C = clustering de X par A en utilisant K_

Discussion

L’approche BC permet d’améliorer la performance de n’importe quel algorithme de clustering

A en fournissant à celui-ci une matrice de similarité K adaptée au comportement de A vis à

vis de la satisfaction des contraintes CL et ML. La matrice K est apprise à partir de la génération

d’un ensemble de tf espaces de représentations permettant d’en déduire tf hypothèses de

clustering de X :

K_ =

Xtf

t=1

_(t)H(t) (3.31)

Le nombre d’étape tf de l’algorithme est, selon les auteurs, imposé. Néanmoins, on peut ne

pas fixer ce paramètre et attendre d’observer les erreurs de l’algorithme A sur la satisfaction des

contraintes. En effet, si dans l’expression de _(t) (3.30) la quantité (pondérée) de contraintes

violées exprimée par le dénominateur est plus grande que la quantité de contraintes satisfaites

exprimée par le numérateur, alors l’expression de _(t) est négative et contredit les hypothèses

faites pour la construction itérative de K (3.29).

Un autre point que l’on peut soulever au regard des approches précédentes de clustering

semi-supervisé, est que l’approche échoue par son critère objectif (3.25), à proposer une intégration

de contraintes ML seules ou de CL seules, ce qui peut arriver régulièrement dans des

cas concrets d’application. De plus, lors de la génération de chaque nouvelle représentation,

celle-ci est déterminée uniquement selon les poids wij associés aux individus xi et xj impliqués

dans les contraintes. Autrement dit, les individus qui ne sont impliqués dans aucune contraintes,

ne sont pas considérés lors de la recherche du sous-espace de projection optimal P_ (3.27).

Enfin, on peut s’interroger sur la discontinuité entre (1) les résultats de clusterings intermédiaires

obtenus lors du processus itératif via application de A sur un nouvel espace de représentation,

et (2) le clustering final qui est obtenu, non pas par application sur un nouvel espace,

mais par l’utilisation d’une nouvelle mesure de similarité.

3.7 Contributions

3.7.1 Motivation

Les contributions proposées reprennent les principes des approches indépendantes de l’algorithme

dans la lignée de BC. Le concept est assez similaire dans le sens où les solutions

3.7. CONTRIBUTIONS 107

proposées sont des méta-algorithmes dont l’objectif est d’offrir à chaque étape un sous-espace

de projection permettant à l’algorithme de clustering de respecter au mieux les contraintes ML

et CL. Nous avons vu que l’approche BC se focalise dans l’expression de la fonction objectif

à optimiser, uniquement sur les paires d’individus impliqués dans les contraintes données. Ce

choix offre des avantages, comme la faible complexité et le succès quant à l’obtention d’un sous

espace dans lequel des individus devant être regroupés (resp. séparés) se retrouvent proches

(resp. éloignés). Néanmoins, il est aussi limitant dans le contexte du clustering sous contraintes,

dans la mesure où il ne réalise pas explicitement l’hypothèse que des individus proches d’autres

individus impliqués dans les contraintes devraient se comporter de manière semblable vis à vis

de ces contraintes. Plus formellement :

8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 ML) ) (xi; xl) 2 ML

8(xi; xj) 2 X2; (xi proche de xj ^ (xj ; xl) 2 CL) ) (xi; xl) 2 CL

Cette hypothèse est centrale dans les travaux de [Klein et al., 2002] (cf. section 3.3.2). Ici, on

ne cherche pas explicitement à imposer ces contraintes. En revanche, on aimerait qu’elles soient

naturellement identifiées lors de la détermination du sous-espace de projection des données.

L’hypothèse émise est qu’alors un sous-espace de projection respectant au mieux la représentation

d’origine des données permettra cette identification. En effet si nous pouvons nous assurer

qu’un individu xi proche d’un individu xj impliqué dans une contrainte, dans l’espace d’origine,

reste proche de lui dans le sous-espace de projection, nous réalisons l’hypothèse. Nous identifions

alors deux principes clés que nous chercherons à respecter en vue d’obtenir une nouvelle

représentation favorisant le respect des contraintes par l’algorithme de clustering :

– la cohérence vis à vis de la représentation d’origine des données. La nouvelle représentation

devra être fidèle à la représentation d’origine.

– la consistance sur le respect des contraintes données par l’utilisateur. Dans la nouvelle

représentation, des individus impliqués dans une contrainte ML (resp. CL) devront être

proches (resp. éloignés).

Les deux approches proposées et présentées par la suite diffèrent sur la manière de modéliser

et d’intégrer ces deux principes ainsi que sur la manière d’intégrer l’observation de la

performance de A, vue dans cette famille d’approche comme un évaluateur de la proximité

apprise.

Une approche de type boosting

La première approche que nous proposons reprend un formalisme de type boosting dans un

cadre non supervisé. L’idée du boosting est apparu dans le contexte de l’apprentissage supervisé.

L’objectif est de guider l’entraînement d’un classifieur dit faible car fournissant un ensemble

d’hypothèses assez erronées mais se comportant mieux qu’un classifieur aléatoire, en vue de

l’améliorer. Il s’agit d’un méta-algorithme qui consiste itérativement à apprendre un modèle à

partir des données via le classifieur faible, en tenant compte, pour chaque modèle, des erreurs

commises par le modèle précédent. Cette prise en compte est réalisée au moyen de poids que l’on

associe aux exemples d’apprentissage. L’idée étant qu’un poids fort sera associé à un exemple sur

lequel le classifieur s’est précédemment trompé, et un poids faible est associé aux exemples bien

classés. Ainsi à chaque étape, et via la pondération sur l’ensemble des exemples, un nouveau

modèle est appris, réalisant des erreurs différentes au fur et à mesure des itérations. L’objectif

étant d’obtenir un classifieur de meilleure qualité sur les données d’entraînement, celui-ci

devra tenir compte de chaque classifieur appris à chaque étape du méta-algorithme de boosting.

Le classifieur final est obtenu au moyen d’un vote pondéré par les confiances accordées

108CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

aux différents classifieurs, confiances relatives aux erreurs réalisées par ceux-ci. L’algorithme

BOC calque le principe du boosting dans le contexte du clustering semi-supervisé. Le principe est

de tenir à jour une distribution des poids sur l’ensemble des paires d’individus impliqués dans

les contraintes (les exemples pondérés sont les paires d’individus). Nous augmentons le poids

associé à une paire d’individus si A ne respecte pas la contrainte (ML ou CL) correspondante

à cette paire d’individus et nous diminuons le poids associé à une paire d’individus impliqués

dans une contrainte satisfaite par A.

Une approche basée sur l’optimisation numérique

La deuxième approche proposée quant à elle, même si elle est extrêmement proche de la

précédente de part l’expression de l’objectif, est sensiblement différente sur la résolution. Nous

choisissons de nous inspirer de l’optimisation numérique pour trouver une solution optimale au

problème posé. Dans cet algorithme l’idée est d’apprendre à chaque étape une nouvelle représentation

des individus meilleure que la précédente dans le sens où A doit parvenir de mieux en

mieux à satisfaire les contraintes données par l’utilisateur. La différence profonde concernant la

résolution est qu’alors via cette approche il n’est pas nécessaire de réaliser un vote consensuel

entre l’ensemble des différentes hypothèses obtenues à chaque étape du méta-algorithme mais

de n’en conserver que les dernières. En ce qui concerne les ressemblances avec la précédente

approche, la construction de la nouvelle représentation des individus est réalisée également à

travers l’utilisation d’une distribution de poids sur l’ensemble des paires d’individus impliqués

dans les contraintes. En revanche les poids ne sont pas mis à jour à la manière du boosting mais

sont estimés de manière adaptée et par optimisation, pour satisfaire le principe de consistance.

De plus, ils servent à pénaliser un objectif visant à satisfaire le principe de cohérence qui lui doit

être optimisé. Le concept général de ces deux approches est schématisé dans la figure 3.3.

ML, CL

X

A H

C

H stable

W X'

FIGURE 3.3 — Schéma général du déroulement des méta-algorithmes pour le clustering semi-supervisé.

W désigne la matrice des poids, et X0 la représentation optimale obtenue à partir du calcul du sousespace

P_ optimal.

Les algorithmes proposés reposent sur l’optimisation d’un critère objectif. Ce critère doit

intégrer la volonté de satisfaire simultanément les deux principes que sont la cohérence et la

consistance. La solution optimale pour ce critère objectif doit alors correspondre à un sousespace

réalisant, après projection de l’ensemble des individus dans celui-ci, un compromis entre :

– le respect de la représentation d’origine d’une part ;

– l’adéquation avec les contraintes utilisateurs d’autre part.

3.7. CONTRIBUTIONS 109

Le respect de la représentation d’origine : la cohérence

En ce qui concerne le premier point, les deux approches proposées reposent sur la même

technique bien connue et éprouvée par les communautés issues de la Statistique et de l’Analyse

de Données : l’analyse en composante principale ou ACP. L’idée de cet outil est d’offrir un moyen

de représenter de manière optimale un ensemble d’individus décrits dans un espace vectoriel de

dimension p, dans un sous-espace vectoriel de dimension s < p. La nouvelle représentation est

optimale dans le sens ou elle préserve le maximum d’information présente dans la représentation

d’origine. L’information préservée est la variance du nuage des individus, ce qui correspond

à la dispersion de l’ensemble des individus relativement à leur centre de gravité. Dans la suite

de ce chapitre, la métrique d correspondra à la métrique euclidienne jj:jj2. Si on considère l’ensemble

d’individu centré, où le nuage est translaté de sorte que le centre de gravité coincide

avec l’origine du repère (0), le critère se formalise de la façon suivante :

QCOH(P) =

X

(xi;xj )2X2

d2

P (xi; xj) = 2n

X

xi2X

d2

P (0; xi) (3.32)

et le problème d’optimisation associé à la recherche de cohérence est alors :

max

P

X

(xi;xj )2X2

d2

P (xi; xj)

Le choix de l’ACP comme moyen d’obtenir un nouvel espace de représentation cohérent avec

la représentation d’origine se justifie pleinement par l’optimalité de la solution puisqu’elle offre

intuitivement un sous-espace dans lequel la distribution des individus projetés est la plus proche

possible de la distribution des individus dans l’espace d’origine. Le respect de la représentation

d’origine correspond au principe de cohérence.

Le respect des connaissances : la consistance

Le problème est maintenant de modéliser la volonté de respecter les connaissances représentées

par les contraintes ML et CL. L’intégration proposée se fonde sur les approches de

type PCKM et SSKM. Plutôt que de pénaliser le critère objectif d’un algorithme de clustering

particulier à l’image des approches précédentes (QKM), nous pénalisons le critère QCOH par un

terme pénalisant devant traduire le non respect des connaissances. La performance de A sur la

satisfaction de ces contraintes n’étant pas prédictible, une expression analytique ne peut être

écrite pour constituer un tel terme pénalisant. La modélisation proposée doit donc se fonder sur

des hypothèses qui elles peuvent être traduites analytiquement, et qui, si elles sont vérifiées,

devraient permettre d’atteindre l’objectif initial :

– si (xi; xj) 2 ML, alors plus les individus sont proches dans la nouvelle représentation,

plus A aura de chance de satisfaire la contrainte ML;

– si (xi; xj) 2 CL, alors plus les individus sont éloignés dans la nouvelle représentation, plus

A aura de chance de satisfaire la contrainte CL.

C’est sur ce point, l’intégration de l’objectif de la recherche de consistance, que les différentes

contributions proposées diffèrent.

3.7.2 BOC : boosting de clustering

L’approche BOC suggère d’associer un critère objectif modélisant la recherche de consistance.

Le critère proposé est le suivant :

QCST(P) =

X

(xi;xj )2CL

wijd2

P (xi; xj) 􀀀

X

(xi;xj )2ML

wijd2

P (xi; xj) (3.33)

110CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

De part ce critère à maximiser selon P 2 Rp_s et s < p, paramétré notamment par les poids

wij > 0, il est possible de réaliser les hypothèses précédentes. Ainsi :

– si (xi; xj) 2 CL, alors plus wij est grand, plus la distance dans l’espace de projection

d2

P (xi; xj) devra être élevée.

– si (xi; xj) 2 ML, alors plus wij est grand, plus la distance dans l’espace de projection

d2

P (xi; xj) devra être faible.

Les poids wij constituent alors un moyen de réaliser l’hypothèse en forçant la recherche

d’une topologie en adéquation avec les contraintes ML et CL.

Objectif

L’objectif global de l’approche est d’apprendre de manière itérative un ensemble de représentations

de X en observant la performance de A sur la satisfaction des contraintes ML et CL,

permettant ainsi à A de produire un ensemble H d’hypothèses de clustering. Cet objectif ne peut

être formalisé tel quel, dû à l’absence de connaissances sur A. L’idée est alors de proposer un

formalisme :

– adapté pour permettre la recherche d’une représentation optimale X_ ;

– paramétré pour pouvoir intégrer un encodage de la performance de A.

Le critère proposé prend alors la forme d’un compromis :

QBOC(P) =

1 􀀀 _

n2 QCOH(P) +

_

m

QCST(P)

= QCOH(P) + reg1(_)QCST(P)

=

X

(xi;xj )2X2

d2

P (xi; xj)

+ reg1(_)

_ X

(xi;xj )2CL

wijd2

P (xi; xj) 􀀀

X

(xi;xj )2ML

wijd2

P (xi; xj)

_

reg1(_) permet de moduler entre la recherche de cohérence ou de consistance :

reg1(_) =

n2_

(1 􀀀 _)m

avec _ 2 [0::1] un paramètre associé à la pondération de chaque terme. Les facteurs n2 et

m = jML [ CLj permettent d’avoir des ordres de grandeurs comparables entre les termes de

cohérence et de consistance.

Le problème d’optimisation consiste alors à maximiser la variance des individus projetés en

respectant la consistance sur les contraintes CL et ML données :

max

P

QBOC(P)

s:t: P>P = Ids

(3.34)

où les poids w permettent d’intégrer la performance de A, liant ainsi l’apprentissage de P_

à l’algorithme de clustering A. Avant de représenter plus en détail la résolution du problème

d’optimisation, il est utile de rappeler quelques résultats notamment autour de l’ACP.

3.7. CONTRIBUTIONS 111

ACP. Soit X 2 Rn_p la représentation matricielle de X centrée, la matrice X>X 2 Rp_p représente

la matrice de corrélations (ou covariances, selon la procédure de normalisation appliquée

aux données) empirique entre les variables descriptives, attributs ou propriétés.

La variance dans l’espace d’origine est définie (dans le cas où les données sont centrées et

réduites) par :

V ariance(X) =

1

n

trace(X>X)

Ainsi, soit X0 = XP une nouvelle représentation de X, la variance des individus dans l’espace

de projection, qui correspond exactement à l’expression optimale du critère QACP devient :

V ariance(X0) =

1

n

trace(X0>X0) =

1

n

trace((XP)>XP) =

1

n

trace(P>X>XP)

Ainsi, on peut remarquer que

max

P

V ariance(X0) _ max

P

trace(P>X>XP)

Dans ce contexte, on peut poser :

QACP(P) = trace(P>X>XP)

L’intérêt de présenter le critère de l’ACP sous cette forme réside dans la résolution du problème

d’optimisation. Soit X_ = XP_, l’obtention de la représentation optimale passe par la

recherche de la matrice de projection optimale P_ solution du problème :

max

P

QACP(P)

s:t: P>P = Ids

(3.35)

où la contrainte P>P = Ids est là pour garantir l’orthonormalité de P_ assurant Jrang(X_) = sK.

Ceci permet de garantir une indépendance entre les s nouveaux descripteurs caractérisant X au

travers de X_.

La résolution de ce problème d’optimisation convexe est un résultat bien connu de l’algèbre

linéaire, les s colonnes de P_ sont les s vecteurs propres associés aux s plus grandes valeurs

propres de la matrice des corrélations/covariances X>X.

Algorithme

Dans BOC, le problème global d’obtention du clustering optimal C_ découle ainsi d’un processus

itératif comprenant :

1. la résolution du problème d’apprentissage de X_ ;

2. l’adaptation des poids par mesure du respect de la consistance de A sur X_.

L’algorithme employé pour résoudre le premier problème (3.34) suit le principe de résolution

de l’ACP. En effet le critère (à maximiser) QBOC associé à la recherche de X_ par l’intermédiaire

de P_ peut être réécrit :

QBOC(P) =

X

xi2X

d2

P (0; xi) 􀀀 reg2(_)

X

(xi;xj )2ML[CL

Wijd2

P (xi; xj) (3.36)

112CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

reg2(_) = 1

2nreg1(_) et avec :

Wij =

8<

:

􀀀wij 8(xi; xj) 2 CL

wij 8(xi; xj) 2 ML

(3.37)

Soit X 2 Rn_p la représentation matricielle des données, et soient

[ML[CL] une représentation tabulaire indicée par l de l’ensemble ML[CL. [ML[CL]l

est le l-ième couple (xi; xj) 2 ML[ CL correspondant à une contrainte à satisfaire ;

Y +; Y 􀀀 2 Rm_p, les matrices telles que :

Y +

l: = (reg2(_)jWij j)

1

2 (xi 􀀀 xj) avec (xi; xj) = [ML[ CL]l

Y 􀀀

l: = sign(Wij)(reg2(_)jWij j)

1

2 (xi 􀀀 xj) avec (xi; xj) = [ML[ CL]l

Y +

l: et Y 􀀀

l: correspondent respectivement aux l-ièmes lignes des matrices Y + et Y 􀀀 représentant

la différence régularisée entre les vecteurs xi et xj tels que le couple (xi; xj) constitue la

l-ième contrainte (ML ou CL).

Soient Y +0 = Y +P et Y 􀀀0 = Y 􀀀P, le critère QBOC peut alors être réécrit sous forme matricielle

par :

QBOC(P) = trace(X0>X0) 􀀀 trace(Y +0>

Y 􀀀0

)

= trace(P>X>XP) 􀀀 trace(P>Y +>

Y 􀀀P)

= trace(P(X>X 􀀀 Y +>

Y 􀀀)P>)

Le problème d’optimisation (3.34) se résout alors comme dans le cadre de l’ACP en diagonalisant

la matrice M = X>X 􀀀 Y +>Y 􀀀. Le sous-espace optimal P_ correspond alors aux s

vecteurs propres associées aux s valeurs propres les plus grandes de cette matrice. L’algorithme

A est ensuite appliqué sur X_ de sorte à proposer une hypothèse de clustering H définie sur

toutes les paires d’individus :

Hij =

_

1 si Link(xi; xj ;A)

􀀀1 si Link(xi; xj ;A)

(3.38)

où par défaut, Hii = 1.

Le second problème à résoudre est l’intégration de la performance de A sur X_. Celle-ci

est réalisée en modifiant la distribution des poids w, modifiant ainsi les paramètres du premier

problème pour une résolution ultérieure. Les poids sont ré-estimées de manière heuristique en

suivant les principes du boosting, dans le sens où si A ne parvient pas à regrouper xi et xj tel

que (xi; xj) 2 ML (respectivement (xi; xj) 2 CL) alors les poids wij du couple correspondant

(xi; xj) doivent croître (respectivement décroître). Cette adaptation doit inciter A à s’améliorer

sur le clustering concernant ces paires d’individus, en lui proposant une représentation X_ adéquat.

Dans un premier temps, l’erreur _ de A est calculée comme la proportion de contraintes

ML et CL violées :

_ =

m

m

(3.39)

m est le nombre de contraintes non satisfaites par A.

À partir de cette erreur, une confiance _ est alors associée au clustering produit par A :

_ =

1

2

ln

_

1 􀀀 _

_

_

(3.40)

3.7. CONTRIBUTIONS 113

Soit la matrice E correspondant aux hypothèses attendues, définie par :

Eij =

8<

:

1 8(xi; xj) 2 ML

􀀀1 8(xi; xj) 2 CL

0 8(xi; xj) 2 X n (ML[ CL)

Les poids sont finalement mis à jour de façon à respecter le principe de boosting :

w_

ij = wij

e􀀀_ijEijHij

Z

8(xi; xj) 2 ML[ CL (3.41)

Z est un facteur de normalisation. Les poids sont alors augmentés si Eij 6= Hij ce qui correspond

à une erreur de clustering par A vis-à-vis des contraintes données.

On remarque qu’une erreur _ _ 1

2 implique une confiance _ _ 0 causant alors un échec vis à

vis de l’objectif visé. L’algorithme de clustering n’est alors plus capable de satisfaire globalement

les contraintes ML et CL. On dit dans ce contexte que A ne remplit plus la condition d’être

un classifieur non supervisé faible, et qu’il n’est plus raisonnable de le booster. Dans ce cas

l’algorithme BOC s’arrête et une synthèse des différentes hypothèses obtenues est réalisée par

un vote à la majorité, pour donner le clustering final des individus C.

Algorithme 24 BOC

ENTRÉES : X, nk, ML, CL, tf , A

SORTIES : C = fC1; :::;Cnkg, X_, P_

1 : Initialisation des wij = 1

m 8(xi; xj) 2 ML[ CL et t = 0

2 : Calculer P_ en résolvant (3.34) et déterminer X_ = PX

3 : Appliquer A sur X_

4 : Mesurer _ par (3.39) et _ par (3.40)

5 : Mise à jour de w par (3.41)

6 : Si t < tf ou _ < 1

2 alors aller en 2

7 : T = min (t; tf )

8 : C = V ote(fH(t)g1_t_T )

Construction de la partition finale

Le vote à la majorité permettant d’obtenir C, à partir de l’ensemble fH(t)g1_t_T des hypothèses

de clustering sur les paires d’individus, peut être réalisé de différentes façons :

1. Selon le boosting, l’hypothèse finale, ici C, peut être construite à partir d’une combinaison

linéaire H_ des différentes hypothèses apprises au cours du méta-algorithme. H_ est alors

défini par :

H_

ij =

XT

t=1

_(t)H(t)

Une matrice C de clustering peut alors être construite en observant la signature de la

matrice H :

Cij =

_

1 si H_

ij > 0

0 si H_

ij < 0

(3.42)

Néanmoins il n’est pas garantit que la matrice C ainsi définit corresponde effectivement

à un clustering. Si l’on interprète C tel un graphe, une approche par partitionnement de

graphe (comme SC) peut être employée pour couper un nombre minimum d’arêtes afin de

114CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

constituer nk composantes connexes, puis une complétion en clique de ces composantes

connexes nous permet d’obtenir une matrice C composée de nk blocs de 1, correspondant

davantage à un clustering. Une autre façon de procéder serait de considérer H_ comme

une matrice de similarité et de l’utiliser comme telle si A est applicable sur une matrice

similarité, ou d’en dériver une distance en considérant H_ comme une matrice de produit

scalaire, et ensuite appliquer A en considérant cette distance.

2. Selon le même genre de principe de vote, mais en utilisant les divers paramètres appris

lors de l’algorithme, il est possible d’estimer de nouveaux poids ~ w reflétant les différentes

étapes du boosting.

~ wij =

XT

t=1

_(t)w(t)

ij

Les poids ~ w correspondent à une moyenne pondérée des poids utilisées lors de la génération

successive des différentes représentation optimales. Ces poids permettent alors de

résoudre (3.34) (où w = ~ w) afin de trouver une nouvelle représentation X_ sur laquelle

appliquer A pour déterminer C.

3. Une troisième piste envisagée pour produire C par un consensus entre les différents résultats

de chaque étape du processus de boosting est de directement concaténer les différentes

représentations des individus en pondérant chacune d’elle par l’efficacité qu’elle apporte

en terme de clustering. Ce qui nous intéresse étant la distance entre les individus, ce type

de fusion revient à réaliser une moyenne pondérée par _ des distances entre individus

décrits par les représentations optimales respectives :

d2(xi; xj) =

XT

t=1

_(t)(xi 􀀀 xj)>P(t)>

P(t)(xi 􀀀 xj)

L’algorithme A est alors appliqué en utilisant d comme mesure de distance. Pour les algorithmes

se fondant sur une mesure de similarité, un noyau peut être appris de manière

similaire.

Discussion

L’approche proposée est très proche dans l’esprit de BC mais diverge sur plusieurs aspects.

Tout d’abord, les deux approches se proposent de booster l’algorithme A en intégrant une mesure

de la performance de A pour le calcul d’un espace de représentation optimal X_. L’objectif de

la discussion suivante est de traiter les similitudes et les différences entre ces deux approches.

Dans un premier temps, l’intégration de la performance de A est traitée, puis dans un second

temps, les détails du calcul du sous espace optimal sont développés.

Intégration de la performance de A

L’intégration de la performance de A est réalisée par l’intermédiaire des poids w. Ces poids

sont mis à jour de façon différentes dans les deux approches. Dans BC, les poids w (noté brièvement

wBC) sont normalisés indépendamment selon le type de contraintesMLou CL, alors qu’ils

sont normalisés relativement à l’ensemble des contraintes dans le cas de BOC (wBOC). En particulier,

soit WBC et WBOC les matrices des poids correspondants aux approches, l’initialisation est

différente :

WBCij =

8>><

>>:

1

m+

8(xi; xj) 2 ML

􀀀

1

m􀀀 8(xi; xj) 2 CL

(3.43)

3.7. CONTRIBUTIONS 115

WBOCij =

8>><

>>:

1

m

8(xi; xj) 2 ML

􀀀

1

m

8(xi; xj) 2 CL

(3.44)

Soit la mise à jour des poids de BC (3.26) :

W(t)

BCij =

8>>>>><

>>>>>:

e􀀀K(t)

ij

ZML

8(xi; xj) 2 ML

􀀀

eK(t)

ij

ZCL

8(xi; xj) 2 CL

(3.45)

Si on utilise le fait que K est construite durant le processus itératif par l’équation :

K(t) = K(t􀀀1) + _(t)H(t)

alors le calcul des poids se réécrit :

W(t)

BCij =

8>>>>><

>>>>>:

e􀀀K(t􀀀1)

ij 􀀀_(t)H(t)

ij

ZML

= W(t􀀀1)

BCij

e􀀀_(t)H(t)

ij

ZML

8(xi; xj) 2 ML

􀀀

eK(t􀀀1)

ij +_(t)H(t)

ij

ZCL

= W(t􀀀1)

BCij

e_(t)H(t)

ij

ZML

8(xi; xj) 2 CL

(3.46)

Sous cette forme la mise à jour des poids de BC est très similaire à celle de BOC, dans la

mesure où les hypothèses Hij sont à valeurs dans f0; 1g pour BC et dans f􀀀1; 1g pour BOC. En

particulier :

– Pour une contrainte ML non violée, i.e. (xi; xj) 2 ML et Hij = 1, le poids associé WBCij

diminue, ce qui entraîne par la normalisation, une augmentation de la valeur des poids

associés aux contraintes ML respectées.

– Pour une contrainte CL violée, i.e. (xi; xj) 2 CL et Hij = 1, le poids associé WBCij augmente

directement (dans les négatifs, car WBCij < 0 8(xi; xj) 2 CL), entraînant par la

normalisation, une diminution de la valeur des poids associés aux contraintes CL respectées.

Seule diffère l’expression de la confiance _(t) (équation (3.30) dans BC et (3.40)), mais elle

reste dans les deux cas une mesure relative à l’erreur de A dans la satisfaction des contraintes

CL et ML. Cette erreur est explicite dans BOC mais non dans BC.

Calcul de la représentation optimale X_

Le second point important des approches BC et BOC est la génération d’une nouvelle représentation

consciente des lacunes de A sur le respect des contraintes. Cette nouvelle représentation

vise à améliorer globalement les performances de A. Les deux approches visent à diagonaliser

une matrice de corrélations mais c’est sur le calcul de cette corrélation qu’elle diffère : X>WBCX

pour BC, et X>X 􀀀 Y +>Y 􀀀 pour BOC. Les critères objectifs associés aux recherche des sousespaces

de projections optimaux respectifs sont :

pour BC : trace(P>X>WBCXP)

pour BOC : trace(P>(X>X 􀀀 Y +>

Y 􀀀)P)

116CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Soit X0 = XP et hxi; xjiP le produit scalaire entre xi et xj projetés dans P. Le critère QBC

peut être réécrit pour dégager une similitude forte avec la recherche de consistance réalisée par

BOC :

QBC(P) = trace(P>X>WBCXP)

= trace(X0>WBCX)

=

X

(xi;xj )2X2

WBCijhxi; xjiP

=

1

2

X

(xi;xj )2X2

WBCij(hxi; xiiP + hxj ; xjiP 􀀀 d2

P (xi; xj))

Ce critère est équivalent en maximisation à :

QBC(P) =

X

(xi;xj )2X2

WBCij(hxi; xiiP + hxj ; xjiP 􀀀 d2

P (xi; xj))

=

X

(xi;xj )2X2

WBCij(hxi; xiiP + hxj ; xjiP ) 􀀀

X

(xi;xj )2X2

WBCijd2

P (xi; xj)

Comme QCST(P) = 􀀀

X

(xi;xj )2X2

WBOCijd2

P (xi; xj) et après l’analogie constatée entre WBC et

WBOC, on peut réécrire :

QBC(P) _

X

(xi;xj )2X2

WBCij(hxi; xiiP + hxj ; xjiP ) + QCST(P)

De cette façon, on peut rapprocher les deux objectifs en constatant :

max

P

QBC(P) _ max

P

QCST(P)

Il reste alors l’expression :

X

(xi;xj )2X2

WBCij(hxi; xiiP + hxj ; xjiP ) =

X

(xi;xj )2X2

WBCij(jjxiPjj22

+ jjxjPjj22

)

qui reste difficile à interpréter. En particulier, comme :

X

(xi;xj )2X2

WBCij(jjxiPjj22

+ jjxjPjj22

)

=

X

(xi;xj )2ML

wBCij(jjxiPjj22

+ jjxjPjj22

) +

X

(xi;xj )2CL

wBCij(jjxiPjj22

+ jjxjPjj22

)

alors plus le poids associé à une contrainte ML augmentera (wBC > 0), plus P sera tel que les

normes des individus impliqués dans ces contraintes soient préservées dans la nouvelle représentation.

Plus le poids associé à une contrainte CL augmentera dans les négatifs (wBC < 0),

plus P sera tel que la somme des normes des individus impliqués dans ces contraintes soient

minimisée, ce qui intuitivement revient à les rapprocher et est contradictoire avec l’objectif.

L’approche proposée permet à l’image de BC, de calculer une représentation X_ à chaque

étape, optimale pour des valeurs de poids fixés. BOC propose différentes façons de produire

une hypothèse finale H_ interprétable comme un clustering des données C, et celles-ci seront

discutés dans la section des expérimentations. Cependant le facteur limitant de la contribution

BOC est le problème de la convergence et l’arbitraire de l’intégration de la performance de A.

Dans la perspective de palier à ce problème, les approches UZABOC et ADAUZABOC, fondées

sur des techniques d’optimisation numérique, ont été développées et éprouvées empiriquement.

Leurs descriptions détaillées font l’objet de la prochaine section.

3.7. CONTRIBUTIONS 117

3.7.3 UZABOC et ADAUZABOC : boosting simple et adaptatif de clustering par

optimisation

Le critère de l’ACP utilisé par BOC est indépendant de l’intégration de la performance de A.

De ce fait, UZABOC se fonde sur le même critère pour modéliser la cohérence. En revanche, l’approche

suggère d’intégrer la mesure de performance de A par l’intermédiaire de contraintes au

problème d’optimisation posé simplement par la recherche de cohénrece. Ainsi, en conservant

l’hypothèse de BOC i.e. la volonté de rapprocher des individus impliqués dans une contrainte

ML et de tenir éloignés des individus impliqués dans une contrainte CL, les hypothèses suivantes

sont émises :

– si (xi; xj) 2 ML alors il existe une constante _ij _ 0 la plus grande possible telle que _ij

borne supérieurement la distance entre xi et xj dans le sous-espace :

(xi; xj) 2 ML ) 9_ij _ 0; d2

P (xi; xj) _ _ij

– si (xi; xj) 2 CL alors il existe une constante _ij _ 0 la plus petite possible telle que _ij

borne inférieurement la distance entre xi et xj dans le sous-espace :

(xi; xj) 2 CL ) 9_ij _ 0; d2

P (xi; xj) _ _ij

Objectif

L’intégration de ces hypothèses comme contraintes au problème de recherche de cohérence

permet de formuler le problème d’optimisation suivant :

max

P

QCOH(P) = max

P

trace(P>X>XP)

s:t: P>P = Ids

d2

P (xi; xj) _ _ij 8(xi; xj) 2 ML (cs1)

d2

P (xi; xj) _ _ij 8(xi; xj) 2 CL (cs2)

(3.47)

Chaque contrainte ML ou CL est associée à une contrainte d’optimisation (cs1) ou (cs2).

Résoudre ce problème pour obtenir une représentation optimale P_ tel qu’il est posé ne permet

à aucun moment d’intégrer le retour de A sur la génération de X_. L’idée pour résoudre ce

problème est de se servir de _ pour rendre compte de la performance de A. Si A appliqué à

X_ = XP_ ne parvient pas à satisfaire les contraintes ML et CL alors que les contraintes

d’optimisation (cs1) et (cs2) sont satisfaites, ces dernières ne sont pas suffisamment adaptées.

Dans ce cas, la solution P_ n’est pas adaptée, et les bornes _ij correspondantes doivent être

réévaluées afin de restreindre l’espace des solutions réalisables. Cela permet, à la suite d’une

nouvelle optimisation, d’améliorer les chances d’obtenir un optimum P_ adapté aux contraintes.

Algorithme

L’algorithme développé (dont la trame est exposée figure 3.4) pour résoudre le problème de

la recherche de la représentation permettant le respect au mieux des contraintes ML et CL par

A, se décline en différents sous problèmes :

– la recherche d’une représentation optimale par résolution de (3.47) ;

– l’intégration du retour de A pour tendre vers une adéquation entre l’algorithme de clustering

et la représentation optimale.

En supposant connues les valeurs de _ pour toutes les contraintes, le problème (3.47) peut

être résolu grâce à l’optimisation lagrangienne. La contrainte d’optimisation JP>P = IdsK peut

être décomposée en s contraintes d’optimisation, en constatant à la fois :

118CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

ML, CL

X

A H

C

H stable

ξ

X'

W

P

FIGURE 3.4 — Schéma du déroulement d’UZABOC.

P>P = Ids , (P>P)2 = Ids ;

(P>P)>

:i (P>P):i = 1 , P>P = Ids.

Le lagrangien associé L(P;w; _) est donné par la formule :

L(P;w; _) (3.48)

= trace(P>X>XP) 􀀀 _> diag((PTP)2 􀀀 Ids)

􀀀

X

(xi;xj )2ML

wij

􀀀

d2

P (xi; xj) 􀀀 _ij

_

+

X

(xi;xj )2CL

wij

􀀀

d2

P (xi; xj) 􀀀 _ij

_

diag(M) est le vecteur constitué des éléments diagonaux de M.

w = fwijgi2[1::n]

j2[1::n]

et _> = (_1; : : : ; _s) représentent les multiplicateurs de lagrange. En particulier,

les multiplicateurs de lagrange w sont analogues aux poids w du critère de BOC : QBOC. En

posant W telle que :

Wij =

_

􀀀wij 8(xi; xj) 2 CL

wij 8(xi; xj) 2 ML

(3.49)

En reprennant la notation de BOC (X 2 Rn_p la matrice des données,et [ML [ CL] la

représentation tabulaire indicée par l de l’ensemble ML[ CL) et en réintroduisant les matrices

Y + 2 Rm_p et Y 􀀀 2 Rm_p les matrices telles que :

Y +

l: = jWij j

1

2 (xi 􀀀 xj) si (xi; xj) = [ML[ CL]l

Y 􀀀

l: = sign(Wij)jWij j

1

2 (xi 􀀀 xj) si (xi; xj) = [ML[ CL]l

Y +

l: et Y 􀀀

l: correspondent respectivement aux l-ièmes lignes des matrices Y + et Y 􀀀 représentant

la différence pondérée entre les vecteurs xi et xj tels que le couple (xi; xj) constitue la

l-ième contrainte (ML ou CL).

Le lagrangien peut être reformulé :

L(P;w; _) (3.50)

= trace(P>(X>X 􀀀 Y +>

Y 􀀀)P) 􀀀 _> diag((PTP)2 􀀀 Ids)

􀀀

X

(xi;xj )2ML

Wij_ij 􀀀

X

(xi;xj )2CL

Wij_ij

3.7. CONTRIBUTIONS 119

Si P_ est un optimum de 3.47, alors il existe un unique couple (w_; __) tel que P_, W_ et __

satisfont les conditions du premier ordre (CPO) suivantes:

8>><

>>:

rP_

i

L(P_;w_; __) = 0 (cond 1)

@L(P_;w_; __)

@w_

ij

= 0 (cond 2)

r__L(P_;w_; __) = 0 (cond 3)

Les différentes dérivées partielles dans (cond 1), (cond 2) et (cond 3) mènent respectivement

aux expressions:

rP_

i

L(P_;w_; __) = 2(X>X 􀀀 Y +>

Y 􀀀)(P_

:i) 􀀀 2_iP_>P_(P_

:i)

@L(P_;w_; __)

@w_

ij

=

_

_ij 􀀀 d2

P_(xi; xj) 8(xi; xj) 2 ML

d2

P_(xi; xj) 􀀀 _ij 8(xi; xj) 2 CL

r__L(P_;w_; __) = P_>P_ 􀀀 Ids

Si on étudie alors les différentes conditions du premier ordre, on remarque que :

– Sous réserve de connaître les valeurs des multiplicateurs de lagrange w (et en utilisant

(cond 3)), la satisfaction de (cond 1) traduit le fait que P_ correspond exactement à la

solution optimale de l’ACP où la matrice de corrélation correspondante aux données à

approximer est la matrice M = X>X 􀀀 Y +>Y 􀀀. La matrice de rang s approximant le

mieux cette matrice corrélation s’obtient par diagonalisation et sélection des s vecteurs

propres de M correspondants aux s valeurs propres les plus grandes.

– une expression sous forme close de w_

ij ne peut être déterminée analytiquement pour

garantir la satisfaction de (cond 2) car 8(xi; xj) 2 ML[ CL, d2

P_(xi; xj) dépend de W_

ij .

Ces observations suggèrent une procédure algorithmique afin d’isoler les recherches de P_

et de w_. L’idée est de proposer un moyen d’approcher de manière itérative, au travers d’une

suite les multiplicateurs de lagrange w_ optimaux, et P_, par observation respectivement d’un

sous espace P courant et de multiplicateurs w courants. étant donnés l’observation d’un sousespace

de projection P fixé. L’approche UZABOC se fonde alors sur l’algorithme d’Uzawa adapté

à l’optimisation numérique d’un critère objectif sous contraintes pour lesquels les multiplicateurs

de lagrange ne peuvent être déterminés par une expression close. L’algorithme d’Uzawa propose

de construire une suite (W(t))t convergente vers W_. À chaque valeur W(t) connue, un sous

espace optimal P(t) est obtenu directement par diagonalisation.

Calcul de la nouvelle représentation X_. Le calcul de la nouvelle représentation optimale

X_ est réalisé par une projection linéaire de X sur P_ :

X_ = XP_

P_ est obtenu comme la limite de la suite (P(t))t issue de la résolution itérative (par Uzawa)

du système émanant des conditions KKT, permettant d’obtenir également les multiplicateurs

optimaux w_. Partant d’une initialisation nulle des multiplicateurs w = 0, la mise à jour de P,

pour w fixé, est déterminée par :

P(t) = arg max

P

trace(P>(X>X 􀀀 Y +>

Y 􀀀)P)

s:t: P>P = Ids

(3.51)

120CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Les multiplicateurs de lagrange w sont eux, mis à jour par :

w(t)

ij =

(

max

􀀀

0;w(t􀀀1)

ij + _ _ (d2

P(t)(xi; xj) 􀀀 _ij)

_

8(xi; xj) 2 ML

max

􀀀

0;w(t􀀀1)

ij + _ _ (_ij 􀀀 d2

P(t)(xi; xj))

_

8(xi; xj) 2 CL

(3.52)

_ est un pas d’optimisation fixé à l’avance, et paramétrable mais constant, dans le cas de

l’application d’Uzawa.

Intégration de la performance de A. Une fois le couple optimal (P_;w_) approché par

Uzawa, la représentation optimale X_ est calculée et A est appliqué sur X_. En cas d’erreurs

sur la satisfaction des contraintes ML et CL par A un nouvel espace de représentation doit

être déterminé. La règle de mise à jour (3.52) donne une indication sur le moyen de contrôler

les mises à jour de w pour corriger la recherche d’un nouvel X_ (par la recherche d’un

nouveau couple (P_;w_)) permettant à A de mieux satisfaire les contraintes ML et CL. Ainsi,

UZABOC propose d’influer directement sur les bornes _ij des contraintes d’optimisation (cs1) et

(cs2).

Soit H la matrice des hypothèses de clusterings issues de l’application de A sur X_ :

Hij =

_

1 si Link(xi; xj ;A)

􀀀1 si Link(xi; xj ;A)

(3.53)

Deux cas peuvent se produire pour chacun des types de contraintes ML et CL lorsqu’elles

ne sont pas satisfaites :

– Soit (xi; xj) 2 ML et Link(xi; xj ;A) (la contrainte ML n’est pas respectée) :

– si la contrainte (cs1) n’est pas satisfaite, alors les multiplicateurs de lagrange augmentent

naturellement, imposant ainsi un poids plus fort sur le couple (xi; xj) lors de

la recherche de la prochaine représentation optimale ;

– si la contrainte (cs1) est satisfaite, alors les multiplicateurs de lagrange devraient naturellement

diminuer, or l’objectif étant de le faire augmenter car la contrainte ML

associée est violée. Nous proposons d’exercer un contrôle en durcissant la contrainte

d’optimisation (cs1), en diminuant la valeur de _ij . Ainsi la diminution naturelle des

poids est amortie et la difficulté de satisfaire la contrainte d’optimisation (cs1) ultérieurement

est accrue.

– Soit (xi; xj) 2 CL et Link(xi; xj ;A) (la contrainte CL n’est pas respectée) :

– si la contrainte (cs2) n’est pas satisfaite, alors les multiplicateurs de lagrange augmentent

naturellement, imposant ainsi un poids plus fort sur (xi; xj) lors de la recherche

de la prochaine représentation optimale ;

– si la contrainte (cs2) est satisfaite, alors pour amortir la diminution naturelle des multiplicateurs,

on propose d’adapter cette contrainte d’optimisation en augmentant la valeur

de _ij .

– Dans tous les autres cas, si les contraintes CL et ML sont satisfaites, les paramètres _

correspondant sont suffisants et n’ont pas besoin d’être réévalués. De plus, les poids diminuent

également naturellement jusqu’à devenir éventuellement nuls.

Ce principe de contrôle des mises à jour des multiplicateurs de lagrange est donc réalisée par

une adaptation au préalable des paramètres _. Ainsi, partant d’une initialisation des _ij tels que

les contraintes d’optimisation (cs1) et (cs2) soient infalsifiables, une suite convergente (_(t)

ij )t est

3.7. CONTRIBUTIONS 121

construite de manière heuristique par :

_(t)

ij =

8>>><

>>>:

d2

P (xi; xj)

2

8(xi; xj) 2 ML; Link(xi; xj ;A) ^ cs1(xi; xj)

(d2

P (xi; xj) + d2(xi; xj))

2

8(xi; xj) 2 CL; Link(xi; xj ;A) ^ cs2(xi; xj)

(3.54)

cs1(xi; xj) indique que la contrainte d’optimisation (cs1) est satisfaite pour le couple

(xi; xj) (idem pour (cs2)).

Algorithme 25 UZABOC

ENTRÉES : X, nk, ML, CL, tf

SORTIES : C = fC1; :::;Cnkg, X_, P_

1 : Initialisation des wij = 0 8(xi; xj) 2 CL [ML

2 : Initialisation des _ij = 0 8(xi; xj) 2 CL et _ij = d2

P (xi; xj) 8(xi; xj) 2 ML

3 : t = 0. Calculer P(t) en résolvant (3.47) et déterminer X(t) = XP(t)

4 : Mise à jour des wij par (3.52)

5 : Si L(P_;w_; __) ne converge pas alors t = t + 1 aller en 3. X_ = X(t) et P_ = P(t)

6 : C = Appliquer A sur X_

7 : Mise à jour de _ par (3.54)

8 : Si t < tf et UZABOC ne converge pas alors aller en 3

9 : Si t < tf alors tf = t

Discussion

L’algorithme UZABOC est relativement proche de BOC. Par une formalisation sous forme d’optimisation

sous contraintes, on peut dégager une similitude forte entre les multiplicateurs de

lagrange de UZABOC et les poids de BOC. L’avantage de UZABOC sur BOC est que l’adaptation

des poids à la satisfaction des contraintes ML et CL par A est moins arbitraire, car reposant sur

un algorithme d’optimisation numérique adapté.

Enfin un autre avantage de l’approche UZABOC est que la distribution naturelle des poids

est apprise par l’algorithme d’optimisation de sorte que l’algorithme tend asymptotiquement à

produire la meilleure (au sens du point-selle) représentation permettant de satisfaire cohérence

et consistance selon l’algorithme A employé. Les approches fondées sur le boosting reposent

quant à elles sur une combinaison linéaire d’hypothèses produites par la distribution des poids

à chaque étape, normalisée et adaptée pour apprendre successivement des hypothèses indépendantes

les unes des autres.

À travers cet aspect se règle également la question de la convergence. Là où les approches par

boosting convergent difficilement vers une solution qui n’est pas le résultat attendu et nécessitent

une procédure finale pour produire un clustering des individus en satisfaisant les contraintes,

l’approche par optimisation cherche le sous-espace optimal réalisant un compromis entre le

terme de cohérence représenté par l’objectif, et le terme de consistance représenté par le terme

de pénalisation introduit dans le lagrangien. L’algorithme d’Uzawa cherche alors à approximer le

point selle de ce lagrangien, correspondant intuitivement à une solution optimale P_ maximisant

la part de cohérence et minimisant la part pénalisante associée à la consistance. Le point selle

du lagrangien L(P_;w_; __) est caractérisé par :

L(P;w_; __) _ L(P_;w_; __) _ L(P_;w; _) (3.55)

122CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Dans notre contexte, l’étape de calcul de P_ est associée également au calcul de __, ainsi

on ne peut garantir la maximisation de la borne inférieure du point selle. La mise à jour des

multiplicateurs w permet de réduire la valeur de l’objectif du dual en adaptant les multiplicateurs

au respect des contraintes d’optimisation. Ainsi pour des valeurs de _ fixés, on ne peut

garantir que l’algorithme UZABOC converge vers ce point selle s’il existe, mais nous pouvons

alors observer empiriquement l’écart entre les valeurs des lagragien après mise à jour des différentes

variables (P du primal, et _ et w du dual). La différence entre les deux bornes est appelée

ici le saut de dualité, et celui-ci doit tendre vers 0 à mesure que les contraintes d’optimisation

se stabilisent, caractérisant ainsi l’atteinte d’une solution optimale en dualité forte. Pour finir,

l’approche UZABOC est globalement convergente, puisque les suites (_(t)

ij )t 8(xi; xj) 2 ML sont

décroissantes et minorées par 0, et les suites (_(t)

ij )t 8(xi; xj) 2 CL sont croissantes et majorées

par d2(xi; xj). L’approche converge alors vers une solution optimale lorsque le saut de dualité

s’annule, et converge vers une solution sous-optimale en cas de dualité faible, solution pour laquelle

un écart à l’optimum (un certificat) peut-être calculé. Ces différentes observations laissent

entrevoir deux variantes, simple et adaptative, pour l’algorithme :

– la variante simple UZABOC consiste à approcher complètement le point selle du lagrangien

pour chaque réévaluation des paramètres _;

– la variante adaptative ADAUZABOC consiste à approcher le point selle tout en adaptant

pendant la recherche les valeurs de _ modifiant ainsi en ligne les contraintes du problème

(et la valeur du lagrangien) et réduisant ainsi l’espace des solutions qui leur est associé.

Ainsi, la variante simple (cf. algorithme 25), pour _ fixé, applique complètement et jusqu’à

convergence l’algorithme Uzawa pour obtenir un sous espace P_. A est appliqué sur X_ = XP_

et les erreurs de A sur le respect des contraintes ML et CL mettent à jour les paramètres _ de

manière à guider davantage la recherche d’une meilleure solution de clustering. Cette procédure

est alors réappliquée avec les nouvelles valeurs de _.

ML, CL

X

A H

C

H stable

P

W

ξ

X'

FIGURE 3.5 — Schéma du déroulement d’ADAUZABOC.

Partant d’une initialisation de _ et des poids W, la variante adaptative (Fig. 3.5 et algorithme

26) recherche P_ en cherchant à améliorer la borne inférieure du problème de point selle (3.55)

tout en réévaluant __. A est ensuite appliqué sur X_ = XP_ et _ est mis à jour afin de tenir

compte des erreurs de A sur ML et CL. La mise à jour des poids W n’est alors plus exactement

celle qui permet de réduire la borne supérieure du lagrangien, mais une nouvelle direction de

mise à jour est considéré afin de tenir compte immédiatement du retour de A. Cette variante

se comporte plus comme l’approche par boosting, dans la mesure où chaque itération permet

3.8. ÉVALUATION 123

d’adapter la distribution des poids en insistant davantage sur les paires d’individus correspondant

aux contraintes ML et CL non satisfaites. L’absence de normalisation de ces poids permet

d’obtenir à la fin, une solution réalisant une adéquation entre l’intégration des contraintes ML

et CL et leur satisfaction, et ainsi ne nécessite pas de procédure de vote à la majorité.

Algorithme 26 ADAUZABOC

ENTRÉES : X, nk, ML, CL, tf

SORTIES : C = fC1; :::;Cnkg

1 : Initialisation des wij = 0 8(xi; xj) 2 CL [ML

2 : Initialisation des _ij = 0 8(xi; xj) 2 CL et _ij = d2

P (xi; xj) 8(xi; xj) 2 ML

3 : t = 0. Calculer P(t) en résolvant (3.47) et déterminer X(t) = XP(t)

4 : C = Appliquer A sur X(t)

5 : Mise à jour de _ par (3.54)

6 : Mise à jour des wij par (3.52)

7 : Si t < tf et ADAUZABOC ne converge pas alors t = t + 1 et aller en 3. X_ = X(t) et

P_ = P(t)

8 : Si t < tf alors tf = t

Ces deux variantes sont illustrées dans la figure 3.6 pour la recherche d’une solution optimale.

Elles seront discutées davantage dans l’évaluation empirique.

3.8 Évaluation

3.8.1 Données

Les jeux de données utilisés pour l’évaluation expérimentale des différentes contributions

BOC, UZABOC et ADAUZABOC proviennent tous de la base UCI 1. Il s’agit des jeux de données

Iris, Wine, Parkinson et WDBC. Les caractéristiques principales de ces jeux de données sont

résumés dans le tableau 3.1.

Jeu Nb. Individus Nb. Attributs Nb. classes

Iris 150 4 3

Wine 178 13 3

Parkinson 195 22 2

WDBC 569 30 2

TABLEAU 3.1 — Caractéristiques des jeux de données utilisés pour le clustering semi-supervisé.

– Le jeu de donnée Iris correspond à un ensemble de 150 fleurs représentant 3 variétés d’iris

présentes en quantités homogènes, soient 50 Iris par classe.

– Le jeu Wine correspond à différents vins d’Italie et sont représentés par leurs constituants

chimique ou descripteurs sensoriels (taux d’acidité, alcool, magnésium, intensité de la

couleur, etc.).

Parkinson est un jeu de donnée dans lequel 195 enregistrements vocaux de 31 patients sont

représentés par des descripteurs numériques issus de techniques de traitement du signal

(fréquence fondamentale minimum, maximum, moyenne, mesures de variation d’amplitude,

etc.).

1. http://archive.ics.uci.edu/ml/

124CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

P(0)

P(3)

P*

P(0)

P(3)

P*

P(0)

P(3)

P*

P(0) P(0)

P(3)

P(0)

P(3)

P*

FIGURE 3.6 — Illustration des méthodes de recherche du sous espace optimal P_ par UZABOC et ADAUZABOC.

La première ligne se réfère à la recherche de P_ par UZABOC. Pour _ fixé, les contraintes sont

fixées et l’ensemble des solutions réalisables est défini. UZABOC recherche alors le P_ satisfaisant ces

contraintes. Selon la performance de A, les contraintes sont modifiées par modification des bornes _.

Cela se traduit par une réduction de l’ensemble des solutions réalisables, une nouvelle recherche du P_

conforme aux contraintes est alors lancée. Ces opérations sont renouvellées jusqu’à ce que les bornes

cessent d’évoluer. La deuxième ligne montre l’évolution de la recherche de P_ par ADAUZABOC, où dans

ce contexte, l’espace des solutions réalisables évolue pendant la recherche de P_.

– Les données de WDBC concernent le diagnostic de cancer du sein. 569 images de seins sont

numérisées et décrites par différents attributs géométriques (périmètre, aire, concavité,

compacité, rayon etc..) ainsi que des attributs de variations de niveaux de gris, dans le but

de repérer des masses cancéreuses.

3.8.2 Protocole expérimental

Le protocole expérimental suivi fixe les différents paramètres pour l’étude comparative des

approches BOC, ADAUZABOC et BC. Les différentes approches à évaluer repose sur une construction

et une diagonalisation d’une matrice de corrélations entre les variables des données (ACP).

Afin de respecter des principes de base de l’analyse de données, des pré-traitements ont été réalisés.

Les jeux de données on tous été centrés et des expériences ont été conduites sans ou avec

réduction afin d’attribuer une importance équitable à tous les descripteurs. Dans le même esprit

et concernant la recherche du sous-espace optimal pratiqué par BOC, UZABOC, ADAUZABOC et

BC, le nombre de dimensions du sous-espace peut :

– être fixé et constant pendant tout le processus d’amélioration de A,

3.8. ÉVALUATION 125

– évoluer au fil des itérations selon l’heuristique consistant à ne sélectionner que les vecteurs

propres correspondant aux valeurs propres positives.

Les approches ont également été éprouvées selon différents algorithmes de clustering boîte

noire afin de valider l’amélioration des performances de ces algorithmes. Les différents algorithmes

A testés 2 sont :

– K-MEANS (cf. section 1.3.1.1) ;

– SPECTRAL CLUSTERING (cf. section 1.3.1.2) sur le graphe des 15 plus proches voisins avec

le laplacien Lrw ;

– CLINK (cf. section 1.2.2).

Pour ces différents algorithmes de clustering, le nombre de groupes à déterminer correspond

au nombre de classes nk = nc. Ensuite, différentes stratégies ont été envisagées pour générer

différentes informations de semi-supervision à partir des données. Comme il s’agit de données

pour lesquelles on peut obtenir les classes des individus, cette information sert à générer des

contraintes valides par rapport à l’objectif d’amélioration de performance. Celles-ci ont été générées

aléatoirement.

Cependant, dans l’optique d’observer l’amélioration des contributions, à nombre de contraintes

données augmentant, plusieurs modes de génération peuvent être considérés. Les expériences

présentées ont été réalisées selon la stratégie suivante 3 : partant d’un ensemble de contraintes

ML et CL, celles-ci sont conservées et enrichies par de nouvelles, jusqu’à atteindre un nombre

de contraintes fixé. De plus, les contraintes sont tirées de telle sorte à conserver un nombre

équilibré de ML et de CL.

Dans l’optique d’étudier la robustesse des contributions, une partie des expériences a été

renouvelée en introduisant du bruit dans les contraintes, dans le sens où certaines contraintes

ML ou CL sont incohérentes avec les classes d’origine. Le pourcentage de contraintes bruitées

est fixé à 20%.

Ensuite, différents choix d’initialisation peuvent être réalisés sur A afin de (1) placer les

approches comparatives dans une posture d’égalité vis à vis de l’instabilité inhérente à A lorsque

celui-ci est par nature non déterministe (KM, SC), ou au contraire (2) d’étudier la robustesse

des approches au regard de cette instabilité :

– une même initialisation peut être apportée à l’algorithme A pour toutes les exécutions

des approches comparatives. Ceci permet d’observer la stabilité de ces approches pour

l’amélioration d’une boîte noire A rendue déterministe ;

– une même initialisation (par exécution) peut être considérée et identique pour toutes les

approches comparatives. Ceci permet de mettre les approches sur un pied d’égalité et dans

ce contexte, d’observer leur robustesse face à différents comportements de A;

– une initialisation différente peut être envisagée pour toutes les approches et à chaque fois

que A est sollicité pour produire un clustering. Ce cas permet d’observer la robustesse des

contributions et de BC face à une boîte noire A plus instable.

Dans les expériences présentées, les algorithmes de clustering employés ont été initialisés

selon la seconde stratégie. Pour finir, concernant l’approche BOC uniquement, le paramètre _

permettant de moduler entre la cohérence et la consistance de la solution est affecté à différentes

valeurs dans l’intervalle [0::1] pour observer le comportement de la méta-heuristique selon ce

paramètre.

2. les approches FKM, ALINK, SLINK, DBSCAN, KKM, KFKM et EM ont également été implémentées mais ne sont

pas incluses dans ces tests.

3. une stratégie de génération aléatoire a également été implémentée mais n’est pas inclue dans ces tests.

126CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

Concernant le nombre d’itération maximum, pour _ fixé, UZABOC réalise au plus 50 itérations

pour approximer le point selle. Le nombre d’itération global autorisant les modifications

de _ est fixé à 20, de même que pour le nombre d’étape de boosting pour BOC.

3.8.3 Évaluation interne

Les comportements des différentes contributions ont été observés en parallèle sur Iris pour

une exécution des méta-algorithmes, selon deux angles et pour deux approches de clustering

différentes : KM et CLINK. La première observation consiste à étudier le phénomène de convergence

des approches. UZABOC et ADAUZABOC approximent le point selle du lagrangien avec

(UZABOC) ou sans (ADAUZABOC) variation sur les contraintes lors de l’apprentissage d’un sousespace

optimal. Ainsi, le saut de dualité doit tendre vers 0, ce qui caractérise l’optimalité de

la solution au regard de la satisfaction des contraintes du problème d’optimisation. À défaut,

une meilleure approximation du point selle est obtenue, pour un saut de dualité positif. Une

autre manière de voir cette convergence est d’observer la variation des poids entre deux étapes

du méta algorithme, celui-ci devant tendre vers 0 à mesure que la convergence est approchée.

Ce critère a été retenu pour observer la convergence de BOC, qui n’est pas exprimé explicitement

comme la recherche d’un point selle. Ces deux critères sont couplés à l’observation de la

satisfaction des contraintes utilisateurs CL et ML. Cette observation permet de corréler la validité

de la modélisation associée à la satisfaction des contraintes au regard de l’objectif initial.

Enfin, comme indice de qualité du méta-algorithme employé, le critère externe d’information

mutuelle normalisée (NMI 1.24) est indiqué à titre indicatif. Cela permet de mesurer l’impact

sur la qualité du clustering de chaque étape du méta-algorithme. Ces différentes observations

sont présentées dans les graphiques 3.9 à 3.14.

Dim ACP=1

Dim ACP=2

Dim ACP=3

Dim ACP=4

Dim ACP=1 (eta=1)

Dim ACP=2 (eta=1)

Dim ACP=3 (eta=1)

Dim ACP=4 (eta=1)

Dim ACP=1 (eta=0,75)

Dim ACP=2 (eta=0,75)

Dim ACP=3 (eta=0,75)

Dim ACP=4 (eta=0,75)

Dim ACP=1 (eta=0,5)

Dim ACP=2 (eta=0,5)

Dim ACP=3 (eta=0,5)

Dim ACP=4 (eta=0,5)

Dim ACP=1 (eta=0,25)

Dim ACP=2 (eta=0,25)

Dim ACP=3 (eta=0,25)

Dim ACP=4 (eta=0,25)

FIGURE 3.7 — Légende de l’évaluation

interne pour UZABOC et ADAUZABOC (à

gauche), et BOC (à droite).

FIGURE 3.8 — Légende de l’évaluation

externe de BOC, UZABOC et ADAUZABOC

relativement à BC.

Étude empirique de la convergence

On remarque en premier lieu sur la figure 3.9 que, pour l’exécution concernée, les approches

BOC convergent vers une stabilisation de la variation des valeurs de poids entre deux étapes.

3.8. ÉVALUATION 127

Chaque étape de boosting permet d’obtenir des solutions très variées et on observe en général

que plus l’on cherche à satisfaire la consistance (_ = 1), plus les solutions obtenues satisfont

les contraintes. De plus, si l’on observe la corrélation avec l’évolution de la mesure d’évaluation

externe, on constate que les performances sur l’ensemble des jeux de données sont complètement

corrélées avec la satisfaction des contraintes tirées au hasard, quelque soit leur nombre.

La performance finale est déterminée uniquement par la décision induite par le type de fusion

employé pour BOC.

Concernant UZABOC (Fig. 3.10) et ADAUZABOC (Fig. 3.11), on constate cette fois en premier

lieu que les deux approches tendent à converger vers une annulation du saut de dualité. Ceci

est plus flagrant sur l’approche ADAUZABOC, étant donné qu’elle converge plus rapidement que

UZABOC (les contraintes s’adaptant pendant la résolution du problème par Uzawa). De plus,

les évolutions des méta-algorithmes tendent à produire des solutions satisfaisant davantage les

contraintes ML et CL. Cette satisfaction progressive des contraintes est encore une fois corrélée

quelque soit l’approche, à une amélioration de la performance relative au critère d’évaluation

externe.

128CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 10 20 30 40 50

0.00 0.05 0.10 0.15 0.20 0.25 0.30

Nb. contraintes = 74

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

0.0 0.1 0.2 0.3 0.4

Nb. contraintes = 220

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

0.00 0.05 0.10 0.15 0.20

Nb. contraintes = 368

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

5 10 15

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

20 40 60 80

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

20 40 60 80

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 74

Nb. Itérations

NMI

0 10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 220

Nb. Itérations

NMI

0 10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.9 — Convergence empirique de BOC avec KM étudiée en observant la variation sur les poids

sur Iris centré et réduit.

3.8. ÉVALUATION 129

0 50 100 150 200

0 100 200 300 400

Nb. contraintes = 74

Nb. Itérations

Saut de dualité

0 100 200 300 400

0 500 1000 1500

Nb. contraintes = 220

Nb. Itérations

Saut de dualité

0 100 200 300 400 500 600

0 500 1000 1500 2000 2500

Nb. contraintes = 368

Nb. Itérations

Saut de dualité

0 50 100 150 200

10 15 20 25

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 100 200 300 400

10 20 30 40 50 60 70

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 100 200 300 400 500 600

20 40 60 80 100

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 50 100 150 200

0.55 0.60 0.65 0.70 0.75 0.80 0.85

Nb. contraintes = 74

Nb. Itérations

NMI

0 100 200 300 400

0.5 0.6 0.7 0.8 0.9

Nb. contraintes = 220

Nb. Itérations

NMI 0

100 200 300 400 500 600

0.5 0.6 0.7 0.8

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.10 — Convergence empirique de UZABOC avec KM étudiée en observant le saut de dualité sur

Iris centré et réduit.

130CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 20 40 60 80

0 50 100 150 200 250

Nb. contraintes = 74

Nb. Itérations

Saut de dualité

0 20 40 60 80 100

0 100 200 300 400 500 600

Nb. contraintes = 220

Nb. Itérations

Saut de dualité

0 20 40 60 80 100

0 500 1000 1500

Nb. contraintes = 368

Nb. Itérations

Saut de dualité

0 20 40 60 80

10 15 20

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 20 40 60 80 100

25 30 35 40 45 50 55 60

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 20 40 60 80 100

50 60 70 80 90 100 110

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 20 40 60 80

0.50 0.55 0.60 0.65 0.70 0.75 0.80

Nb. contraintes = 74

Nb. Itérations

NMI

0 20 40 60 80 100

0.60 0.65 0.70 0.75

Nb. contraintes = 220

Nb. Itérations

NMI

0 20 40 60 80 100

0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.11 —Convergence empirique de ADAUZABOC avec KM étudiée en observant le saut de dualité

sur Iris centré et réduit.

3.8. ÉVALUATION 131

0 10 20 30 40 50

0.0 0.1 0.2 0.3 0.4

Nb. contraintes = 74

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

0.00 0.02 0.04 0.06

Nb. contraintes = 220

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

0.00 0.05 0.10 0.15 0.20 0.25 0.30

Nb. contraintes = 368

Nb. Itérations

Variation sur les poids

0 10 20 30 40 50

5 10 15 20 25 30 35

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

20 40 60 80 100

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

50 100 150

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 74

Nb. Itérations

NMI

0 10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 220

Nb. Itérations

NMI 0

10 20 30 40 50

0.0 0.2 0.4 0.6 0.8

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.12 — Convergence empirique de BOC avec CLINK étudiée en observant le saut de dualité sur

Iris centré et réduit.

132CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 10 20 30 40 50 60

0 100 200 300

Nb. contraintes = 74

Nb. Itérations

Saut de dualité

0 50 100 150 200

0 200 400 600 800 1000

Nb. contraintes = 220

Nb. Itérations

Saut de dualité

0 50 100 150

0 500 1000 1500 2000

Nb. contraintes = 368

Nb. Itérations

Saut de dualité

0 10 20 30 40 50 60

0 5 10 15 20 25

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 50 100 150 200

20 40 60 80

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 50 100 150

20 40 60 80 100 120 140

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50 60

0.4 0.5 0.6 0.7 0.8

Nb. contraintes = 74

Nb. Itérations

NMI

0 50 100 150 200

0.4 0.5 0.6 0.7 0.8 0.9

Nb. contraintes = 220

Nb. Itérations

NMI

0 50 100 150

0.4 0.5 0.6 0.7 0.8 0.9

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.13 — Convergence empirique de UZABOC avec CLINK étudiée en observant le saut de dualité

sur Iris centré et réduit.

3.8. ÉVALUATION 133

0 10 20 30 40 50 60 70

0 50 100 150 200

Nb. contraintes = 74

Nb. Itérations

Saut de dualité

0 20 40 60 80 100

0 500 1000 2000 3000

Nb. contraintes = 220

Nb. Itérations

Saut de dualité

0 20 40 60 80 100

0 1000 2000 3000 4000 5000 6000

Nb. contraintes = 368

Nb. Itérations

Saut de dualité

0 10 20 30 40 50 60 70

5 10 15 20 25

Nb. contraintes = 74

Nb. Itérations

Nb. contraintes violées

0 20 40 60 80 100

20 40 60 80 100

Nb. contraintes = 220

Nb. Itérations

Nb. contraintes violées

0 20 40 60 80 100

50 100 150

Nb. contraintes = 368

Nb. Itérations

Nb. contraintes violées

0 10 20 30 40 50 60 70

0.4 0.5 0.6 0.7 0.8

Nb. contraintes = 74

Nb. Itérations

NMI

0 20 40 60 80 100

0.2 0.4 0.6 0.8

Nb. contraintes = 220

Nb. Itérations

NMI 0

20 40 60 80 100

0.2 0.4 0.6 0.8

Nb. contraintes = 368

Nb. Itérations

NMI

FIGURE 3.14 — Convergence empirique de ADAUZABOC avec CLINK étudiée en observant le saut de

dualité sur Iris centré et réduit.

134CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

3.8.4 Évaluation externe

Les approches BOC, UZABOC et ADAUZABOC ont été évaluées empiriquement dans le but de

mesurer leur performance relativement à l’évolution du nombre de contraintes, décrite dans le

protocole précédent. BOC a été testé selon différentes valeurs de _ (eta) et selon différent types

de fusions finales pour obtenir un clustering à partir des différentes hypothèses produites durant

le processus de boosting. Les différentes instances de l’approche BOC sont désignées par :

BOC 1 : des poids moyens ~ wij sont déterminés pour toutes les paires d’individus impliqués

dans les contraintes :

~ wij =

Xtf

t=1

_(t)w(t)

ij

Ces poids servent pour obtenir une nouvelle représentation optimale des individus sur

laquelle appliquer A. Cette forme de fusion est suggéré dans le paragraphe 4.6.2.§ 2.

BOC 2 : une matrice de similarité ~K (noyau) est construite à partir d’une moyenne pondérée

par les confiances des hypothèses de clustering sur les paires d’individus :

~K

=

Xtf

t=1

_(t)H(t)

Cette matrice noyau sert directement de matrice de similarité, ou à redéfinir une distance,

utilisée ensuite par A pour obtenir un clustering des individus. Ce type de construction de

C est semblable à celle employée par BC, et est suggéré dans le paragraphe 4.6.2.§ 1.

BOC 3 : une matrice de similarité ~K est construite à partir d’une somme pondérée des

similarités entre individus obtenues dans les différentes représentations optimales :

~K

=

Xtf

t=1

_(t)X(t)X(t)>

Ce type de construction de ~K et son utilisation comme matrice de produit scalaire pour

définir une distance, revient à calculer la matrice moyenne des distances entre individus

à chaque étape de boosting. Cela revient également à calculer une distance à partir de la

concaténation des différentes représentations optimales obtenues lors du processus itératif,

comme suggéré au paragraphe 4.6.2.§ 3.

Les résultats présentés dans les graphiques 3.15 à 3.26 permettent d’étudier les différentes

approches selon le jeu de donnée et les algorithmes de clustering employés. Chaque série de graphiques

présente l’évolution de la performance des algorithmes de clustering KM, SC et CLINK,

relativement au nombre de contraintes, pour chaque jeu de données et dans des configurations

différentes. Ces expériences nous permettent de discuter de :

– l’apport des méta-algorithmes sur la qualité des groupes produits par les différents algorithmes

de clustering ;

– l’impact du paramètre _ (eta) sur BOC, et d’établir par ce biais l’impact de la recherche de

cohérence sur la performance ;

– la performance relative des contributions par rapport à BC;

– l’impact de la normalisation des données.

Chaque série de graphiques est constituée de deux lignes de trois graphiques. La première

ligne concerne l’évolution du F-score et la seconde, l’évolution de l’information mutuelle normalisée.

Dans chaque ligne, les trois graphiques concernent, dans l’ordre, KM, SC et CLINK.

3.8. ÉVALUATION 135

0 100 200 300

75 80 85

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l

l

l

ll ll ll ll ll ll

0 100 200 300

50 60 70 80 90

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l

l

l

l l

l

l

l

l l

l

l l l l

l

l l l l

l l l l 0 100 200 300

65 70 75 80

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l l

l l

l l l

l l l l 0 100 200 300

0.60 0.65 0.70 0.75 0.80

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l

l

l

l

l l l l

l

ll ll lll ll ll ll

0 100 200 300

0.0 0.2 0.4 0.6 0.8

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l l

l

l

l

l

l l

l

l

l l l

l

l

l l l

l

l

l

l

l l

l

l

l

l l

l

l l l l

l

l l l l

l l l 0 100 200 300

0.55 0.60 0.65 0.70 0.75

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l l

l

l l

l l

l l l l l l FIGURE 3.15 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur Iris centré et réduit.

0 200 400 600 800 1000 1200

62 64 66 68 70 72

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

65 70 75

PWF (parkinson)

Nb. Contraintes

Fs

l

l l

l l l

l

l l

l l l

l

l

l

l

l

l

l

l l l l

l l l l l l l l l 0 200 400 600 800 1000 1200

65 70 75

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

0.10 0.15 0.20 0.25

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

0.05 0.10 0.15 0.20 0.25

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l l

l

l l

l l l 0 200 400 600 800 1000 1200

0.05 0.10 0.15

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

FIGURE 3.16 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur Parkinson centré et

réduit.

136CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 100 200 300 400 500

75 80 85 90 95

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l l l l

l

l l l

l

ll ll ll ll ll ll

0 100 200 300 400 500

60 70 80 90 100

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l l

l

l

l

l

l l

l l

l

l l

l

l l l l

l

l l

l l

l l

l l

l l

ll ll ll ll ll lll

0 100 200 300 400 500

65 70 75 80 85 90 95

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l l

l

l

l l

l

l

l

l l

l

l l l l l

l l l l l

0 100 200 300 400 500

0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l l

l

l

l l l

l

l

l l

l l l l

l

l l l

l

ll ll ll ll ll ll

0 100 200 300 400 500

0.2 0.4 0.6 0.8

NMI (wine)

Nb. Contraintes

Nmia

l l

l

l

l

l

l

l

l

l

l

l

l l l l

l

l l l l

l

ll ll ll ll l

l l l l l

l l l l

ll ll ll lll ll

0 100 200 300 400 500

0.6 0.7 0.8 0.9

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l l l l l

l l l l l

FIGURE 3.17 —Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur wine centré et réduit.

0 2000 4000 6000 8000

82 84 86 88 90

PWF (wdbc)

Nb. Contraintes

Fs

l

l

l

l

l

l

l l

l

l

l

l

l

l

l l l

l

l

l

l l

l

l l l

ll ll ll ll ll ll

0 2000 4000 6000 8000

70 75 80 85 90

PWF (wdbc)

Nb. Contraintes

Fs

l

l

l

l

l l

l

l

l

l

l l

l

l l l l

l

ll llll lll lll lll ll

0 2000 4000 6000 8000

60 65 70 75

PWF (wdbc)

Nb. Contraintes

Fs l

l l

l l

l

l

l l

l l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

0.50 0.55 0.60 0.65 0.70 0.75

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l

l l

l

l l l

ll ll ll ll ll ll

0 2000 4000 6000 8000

0.0 0.2 0.4 0.6

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l

l l

l

l

l

l

l l

l

ll llllll ll llll ll ll

0 2000 4000 6000 8000

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

ll ll ll ll ll ll

FIGURE 3.18 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur WDBC centré et

réduit.

3.8. ÉVALUATION 137

Amélioration de la performance des algorithmes de clustering

Globalement, comme on peut le constater sur la quasi-intégralité des données centrées et

réduites (Fig. 3.15 à Fig. 3.18), les contributions UZABOC et ADAUZABOC permettent systématiquement

d’améliorer la performance des trois algorithmes de clustering employés. Le cas

où l’amélioration ne semble pas être réalisée (pour le jeu de donnée parkinson (Fig. 3.16)) est

relatif à la mesure de F-score, l’amélioration est observable selon l’information mutuelle normalisée.

Ceci s’explique par l’obtention d’une solution moins dégénérée, dans le sens où un groupe

devient plus important en taille que les autres, ce qui favorise le rappel et a fortiori le F-score.

L’approche BOC est quant à elle plus instable.

Amélioration de la qualité relativement à l’état de l’art

On constate également que sur la grande majorité des jeux de données, les approches UZABOC

et ADAUZABOC surpassent l’approche BC. Sur Iris, L’écart de performance est plus mince,

et sur Parkinson ces écarts sont relatifs à la mesure d’évaluation, notamment à la faiblesse du

F-score. Seul CLINK semble être davantage amélioré par BC que par UZABOC ou ADAUZABOC.

Concernant les variantes de BOC et les différentes valeurs du paramètre _, les résultats sont

mitigés. On remarque que BOC 3 a un plus mauvais comportement dans le cas général que les

versions BOC 1 et BOC 2. En revanche dans tous les cas, on constate que plus la prise en compte

de la cohérence est importante, plus la performance se dégrade, ce qui semble contredire l’intuition

de départ concernant la volonté de préserver au mieux la distribution d’origine des données.

Néanmoins, il est normal d’observer de tels résultats relativement aux mesures d’évaluation externe,

car plus la part de consistance est importante, plus on a de chances de réussir à satisfaire

les contraintes, et ainsi à retrouver une bonne part de la classification de référence. Une évaluation

alternative serait de ne mesurer par évaluation externe, que le résultat de clustering sur les

individus non impliqués dans une contrainte. De plus, les approches UZABOC et ADAUZABOC,

qui dominent les différentes approches envisagées, reposent sur la maximisation du critère de

cohérence régularisé.

Impact du bruit dans les informations externes

L’impact du bruit a également été observé sur les différents jeux de données (Fig. 3.19 à

Fig. 3.22). La constatation principale que l’on peut faire dans ce contexte est que hormis pour

le jeu de données WDBC, les contributions sont en général moins robustes que BC. De plus

l’observation des différentes variantes de BOC indique cette fois que la recherche uniquement de

consistance fait chuter l’amélioration de la performance, ce qui donne du crédit à la recherche

de cohérence. Cependant, il est très difficile d’améliorer ne serait-ce que l’algorithme de base

employé sur la représentation d’origine, dans la mesure où les approches de type BOC s’arrêtent

souvent brutalement par non réalisation de l’hypothèse du classifieur faible. En effet si le jeu de

donnée se prête aux approche de clustering semi-supervisées indépendante de l’algorithme, alors

si celui-ci parvient à retrouver naturellement une bonne classification, il réalisera des erreurs sur

les contraintes bruitées.

138CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 100 200 300

50 55 60 65 70 75 80

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l l l l

l

ll ll ll ll ll ll

0 100 200 300

50 60 70 80

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l l l l l 0 100 200 300

60 65 70 75 80

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l

l

l

l

l

l

l

l l

l l l

l 0 100 200 300

0.3 0.4 0.5 0.6 0.7

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l l l

l

ll ll ll ll ll ll

0 100 200 300

0.0 0.2 0.4 0.6 0.8

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l

l

l

l l l l

l l l l 0 100 200 300

0.4 0.5 0.6 0.7

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l l

l

l

l

l

l

l

l

l l l l l l l l FIGURE 3.19 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Iris centré et

réduit avec contraintes bruitées.

0 200 400 600 800 1000 1200

60 62 64 66 68 70 72

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l

l

ll l ll ll ll ll

lll 0 200 400 600 800 1000 1200

65 70 75

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

ll l l ll ll ll

l

ll ll 0 200 400 600 800 1000 1200

60 65 70 75

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

0.10 0.15 0.20

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l

l

ll ll lll ll ll ll

0 200 400 600 800 1000 1200

0.00 0.05 0.10 0.15 0.20

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

ll l l l l ll

l

ll ll ll ll 0 200 400 600 800 1000 1200

0.05 0.10 0.15

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l

ll ll ll ll ll ll

FIGURE 3.20 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Parkinson

centré et réduit avec contraintes bruitées.

3.8. ÉVALUATION 139

0 100 200 300 400 500

50 60 70 80 90

PWF (wine)

Nb. Contraintes

Fs

l

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l l

l

l l

l

l l l l

l

ll ll ll lll lll ll

0 100 200 300 400 500

40 50 60 70 80 90

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l l l

l

l l

l

ll ll ll ll ll ll

0 100 200 300 400 500

60 70 80 90

PWF (wine)

Nb. Contraintes

Fs

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l l

l

l

l l

l l

l

l l

l l

l l l l

l l l l

0 100 200 300 400 500

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

NMI (wine)

Nb. Contraintes

Nmia

l

l

l l

l

l

l

l

l l

l

l

l

l l l

l

l

l l

l

l

l l

l

l l

l l

l

l l

l

l l l

l

ll ll ll lll ll ll

0 100 200 300 400 500

0.2 0.4 0.6 0.8

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l l

l

l l l

l

ll ll ll ll ll ll

0 100 200 300 400 500

0.3 0.4 0.5 0.6 0.7 0.8

NMI (wine)

Nb. Contraintes

Nmia

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l

l l

l

l l

l l l l

l l l l l

FIGURE 3.21 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu wine centré et

réduit avec contraintes bruitées.

0 2000 4000 6000 8000

65 70 75 80 85 90

PWF (wdbc)

Nb. Contraintes

Fs

l

l

l l

l

l

l

l

l l

l

l

l

l l l l

l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

70 75 80 85 90

PWF (wdbc)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l

l

ll lll lll ll ll ll

0 2000 4000 6000 8000

55 60 65 70 75

PWF (wdbc)

Nb. Contraintes

Fs

l l l

l

l

l l l

l

l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

0.2 0.3 0.4 0.5 0.6 0.7

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l l

l

l

l

l

l l

l

l

l

l

l l l

l

l

ll lll ll ll ll ll

0 2000 4000 6000 8000

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

0.00 0.05 0.10 0.15 0.20 0.25 0.30

NMI (wdbc)

Nb. Contraintes

Nmia

l l

l

l

l

l l l

l

l

l

ll ll ll ll ll ll

FIGURE 3.22 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu WDBC centré

et réduit avec contraintes bruitées.

140CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 100 200 300

78 80 82 84 86 88 90

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l l

l

l

l

l

l l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l

l

l l l

l

l

ll ll ll ll ll ll

0 100 200 300

50 60 70 80 90

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l

l l

l

l l

l

l l l

l

l

l l l

l l l l l l 0 100 200 300

70 75 80 85

PWF (iris)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l

l

l

l l l

l

l

l l l

ll ll ll ll ll ll

0 100 200 300

0.70 0.75 0.80 0.85

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l l

l

l

l

l

l l

l

l

l

l l

l

l

l

l l

l

l

l

l l

l

l

l

l l

l

l

l

l l l

l

l

ll ll ll lll lll lll

0 100 200 300

0.0 0.2 0.4 0.6 0.8

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l l

l

l

l

l

l

l

l

l l

l l

l

l

l

l l

l

l l l

l

l l

l l

l

l l

l l l l

l

l

l l l

l l l l l l 0 100 200 300

0.60 0.65 0.70 0.75 0.80 0.85

NMI (iris)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l

l

l l l

l

l

l l l

ll ll ll ll ll ll

FIGURE 3.23 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Iris centré.

Impact du pré-traitement des données sur l’efficacité des approches

Les différents comportement ont également été observés selon différents pré-traitements.

Les résultats de la figure 3.15 à la figure 3.18 représentent le cas où les données sont centrées

et réduites, alors que les résultats de la figure 3.23 à la figure 3.26 correspondent aux données

centrées uniquement. L’opération de centrage des variables ou attributs est nécessaire de par

la modélisation considérée du problème et la formalisation du critère de l’ACP. L’opération de

réduction des variables à une variance unitaire avant tout traitement de type ACP permet de

rétablir une équité entre les différentes variables. Cependant, si les variables de variance élevée

sont très discriminatives, au sens ou la dispersion des individus selon ces variables permettent

de retrouver naturellement les classes d’individus, alors il peut être bon de conserver davantage

l’information portée par elles dans la définition de la nouvelle représentation optimale sur

laquelle effectuer le clustering.

3.8. ÉVALUATION 141

0 200 400 600 800 1000 1200

64 65 66 67 68 69 70 71

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

l l l

l

l l l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

55 60 65 70

PWF (parkinson)

Nb. Contraintes

Fs

l

l l

l

l

l l

l

l

l

l

ll llll ll ll ll ll

0 200 400 600 800 1000 1200

68 70 72 74 76

PWF (parkinson)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l l

l l l

l l

ll llll ll ll ll ll

0 200 400 600 800 1000 1200

0.04 0.06 0.08 0.10

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

ll l l l ll ll

l

ll ll ll 0 200 400 600 800 1000 1200

0.01 0.02 0.03 0.04 0.05 0.06 0.07

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l l

l

l

l

l

l

l

l

l

l

l l l l

l

ll ll ll ll ll ll

0 200 400 600 800 1000 1200

0.00 0.02 0.04 0.06 0.08

NMI (parkinson)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l

l

ll ll ll ll ll ll

FIGURE 3.24 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu Parkinson

centré. Celles-ci sont évaluées selon le F-score (en haut) et l’information mutuelle normalisé (en bas)

pour KM, SC et CLINK (dans l’ordre, de gauche à droite).

0 100 200 300 400 500

60 65 70 75 80

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l l l

ll llll lll ll ll ll

0 100 200 300 400 500

60 65 70 75 80 85 90

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l l l

ll ll ll ll ll ll

0 100 200 300 400 500

50 55 60 65 70 75 80 85

PWF (wine)

Nb. Contraintes

Fs

l

l

l

l l

l

l

l

l

l l

l

l

l l

l l

l

l

l

l l

l l l

l l

l l l

l l

l

l l

ll ll ll ll ll ll

0 100 200 300 400 500

0.40 0.45 0.50 0.55 0.60 0.65 0.70

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l l l l

l

ll llll lll ll ll ll

0 100 200 300 400 500

0.4 0.5 0.6 0.7 0.8

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l

l l

l

l

l

l l

l

l l l

ll ll ll ll ll ll

0 100 200 300 400 500

0.1 0.2 0.3 0.4 0.5 0.6 0.7

NMI (wine)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

l l l

l l l l

l l l l l l

l l l l ll ll ll ll ll ll

FIGURE 3.25 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu wine centré.

142CHAPITRE 3. CLASSIFICATION NON SUPERVISÉE ET INTÉGRATION DE CONNAISSANCES

0 2000 4000 6000 8000

70 75 80 85

PWF (wdbc)

Nb. Contraintes

Fs

l

l

l

l

l

l

l

l

l

l

l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

66 68 70 72 74

PWF (wdbc)

Nb. Contraintes

Fs

l l l l l l l

l l l l l ll llll ll ll ll ll

0 2000 4000 6000 8000

55 60 65 70

PWF (wdbc)

Nb. Contraintes

Fs

ll ll ll ll ll lll

0 2000 4000 6000 8000

0.3 0.4 0.5 0.6

NMI (wdbc)

Nb. Contraintes

Nmia

l

l

l

l

l

l

l

l

l

l

l

l

ll ll ll ll ll ll

0 2000 4000 6000 8000

0.0 0.1 0.2 0.3 0.4

NMI (wdbc)

Nb. Contraintes

Nmia

ll lll lll lll lll llll

0 2000 4000 6000 8000

0.02 0.04 0.06 0.08 0.10

NMI (wdbc)

Nb. Contraintes

Nmia

l

l l

l

l

l

l

l l

l

l

l

ll ll ll ll ll ll

FIGURE 3.26 — Comparaison des approches BOC, UZABOC, ADAUZABOC et BC sur le jeu WDBC centré.

3.9 Discussion

Les contributions BOC , UZABOC et ADAUZABOC reprennent les travaux de [Liu et al., 2007]

sur le développement de BC, et proposent des extensions afin de respecter les différentes propriétés

introduites : la cohérence et la consistance. L’analogie entre BOC et BC permet d’argumenter

sur les différentes possibilités pour réaliser un boosting d’un algorithme quelconque de

clustering en vue d’en améliorer la performance. Une similitude forte a ensuite été dégagée entre

BOC et UZABOC, et sa variante adaptative ADAUZABOC. Cependant, ces dernières permettent

de s’abstraire d’un processus de fusion finale indispensable aux approches orientées boosting.

Ceci est dû notamment au fait que la normalisation de la distribution de poids dans ces approches

est telle qu’accentuer la satisfaction d’une partie des contraintes utilisateurs implique

un relâchement des autres contraintes. Le méta-algorithme BOC souffre alors dans ce contexte

d’un problème d’oscillation dans la satisfaction des contraintes et s’en remet à la décision finale

modulée par les différents paramètres de confiance.

Les différentes approchent ont le défaut d’être limitées par le fait qu’une projection linéaire

est réalisée pour déterminer à chaque étape la représentation optimale. Dans le cas général,

il peut exister des contraintes CL impliquant des individus se situant entre d’autres individus

impliqués eux dans une contrainte ML, et tels que tous ces individus soient alignés. Un tel

scénario rend la satisfaction des contraintes impossible car aucun sous espace ne peut rapprocher

les individus ML sans rapprocher les individus CL. Ainsi, la grande majorité des algorithmes

de clustering, si ils parviennent à regrouper ces individus ML regrouperont alors les individus

CL. Une perspective envisageable serait de réaliser une projection non linéaire de l’ensemble

des individus. Néanmoins cette solution est en général plus coûteuse au sens de la complexité

algorithmique.

3.10. CONCLUSION 143

3.10 Conclusion

Ce chapitre a permis de présenter la problématique du clustering semi-supervisé. Un historique

des différentes approches clés a été développé avant de présenter le socle des contributions

proposées. Celles-ci se fondent sur l’approche BC proposée par [Liu et al., 2007] et proposent de

l’étendre en introduisant des propriétés devant être satisfaites par les approches de type métaalgorithme

indépendantes de tout algorithme de clustering. L’approche BOC fondée sur le boosting

se rapproche de BC et permet de trouver un ensemble de solutions de clustering satisfaisant

chacune au mieux une partie des contraintes. Différentes procédure de décision du clustering

final ont été proposées afin de combiner ces différents résultats. L’approche UZABOC est plus

élégante puisqu’elle permet, au travers d’une procédure d’optimisation numérique convergente,

de déterminer à chaque étape une nouvelle représentation meilleure que la précédente. Les

choix de modélisation proposés ont été éprouvés empiriquement, et des résultats prometteurs

ont été obtenus notamment avec la variante ADAUZABOC. Ces diverses contributions ne sont pas

sans défauts et des améliorations pourront leur être apportées. Cependant, afin de résoudre les

différents problèmes liés à la multiplicité des données autour du clustering, l’approche ADAUZABOC

a été retenue pour être utilisée dans le cadre du clustering collaboratif, proche du clustering

ensemble ou consensus de partition, ainsi qu’au problème de recherche de clustering alternatifs.

Ces différentes problématiques sont traitées simultanément dans la prochaine partie.

 

Classification non supervisée 4

collaborative

Sommaire

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

4.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

4.3 Approches de type ensemble de clusterings . . . . . . . . . . . . . . . . . . . 149

4.3.1 Clustering consensus par ensemble de clusterings . . . . . . . . . . . . . 149

4.3.2 Consensus de partitions . . . . . . . . . . . . . . . . . . . . . . . . . . 151

4.4 Approches collaboratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement automatique

de hiérarchies . . . . . . . . . . . . . . . . . . . . . . . . . . 154

4.4.2 MOCLE : clustering d’ensemble multi-objectif . . . . . . . . . . . . . . 156

4.5 Approches alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

4.5.1 COALA : clustering hiérarchique alternatif . . . . . . . . . . . . . . . . 158

4.5.2 ADFT : apprentissage de distance alternative . . . . . . . . . . . . . . 160

4.5.3 CAMI : estimation d’un mélange de modèles alternatifs . . . . . . . . . 161

4.6 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.6.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus166

4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche d’alternatives

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

4.7 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

4.7.1 Protocole expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

4.7.2 Évaluation interne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

4.7.3 Évaluation externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

4.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

4.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

146 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

4.1 Introduction

Ce chapitre introduit de nouvelles techniques pour obtenir un ou plusieurs regroupements

d’individus décrits par plusieurs représentations, les approches COBOC et ALTERBOC. Ces algorithmes

ont pour objectif de répondre à deux problématiques duales :

– COBOC pour le clustering d’ensemble et le clustering collaboratif, ou la recherche d’une

partition, ou de plusieurs partitions consensus à partir d’un ensemble (appelé aussi profil)

de partitions ;

– ALTERBOC pour l’alternative clustering ou la recherche de plusieurs partitions optimales,

de bonne qualité et dissimilaires entre elles.

Dans un premier temps les approches typiques pour la résolution de ces problématiques

sont présentées ainsi que les principes de base régissant les différentes contributions proposées.

Dans un second temps, ces dernières seront détaillées. Elles sont fondées sur une forme

de co-apprentissage (co-training) pour l’apprentissage simultané de solutions de clusterings répondant

à ces problématiques. Le co-apprentissage est maîtrisé et mené via un partage d’informations

entre les algorithmes de clusterings appliqués localement. Ce partage est réalisé au

travers d’heuristiques de génération de contraintes puis d’intégration de celles-ci dans chacun

des algorithmes de clustering réalisant leur tâche locale, dont le coeur correspond à l’approche

ADAUZABOC développée au chapitre 3.

L’objectif des approches de clustering ensemble étendues au cadre multi-vues est de produire

une unique partition à partir d’un ensemble d’individus munis d’un ensemble de représentations.

Cette partition correspond à une recherche de consensus entre plusieurs partitions locales, obtenues

naturellement dans chaque vue par un algorithme de clustering adapté. La notation suivante

permet de comprendre les formalismes des différentes approches proposées :

NOTATION

n : le nombre d’individus à regrouper.

n(r)

p : le nombre d’attributs décrivant les individus dans la vue r.

nk : le nombre de groupes à identifier.

nc : le nombre de classes associé aux données.

X = fx1; :::; xng : l’ensemble des n individus à partitionner.

X(r) 2 Rn_n(r)

p : la représentation matricielle de X dans la vue r.

x(r)

i 2 Rn(r)

p : la représentation vectorielle de l’individu xi dans la vue r.

C = fC1; :::;Cnkg : la structure de clustering en nk groupes à construire.

_ = fC(1); :::;C(nr)g : l’ensemble des nr clusterings locaux dans chaque vue.

C(r) = fC(r)

1 ; :::;C(r)

nk g : l’ensemble des nk groupes du clustering dans la vue r.

C = fC1; :::; Cncg : l’ensemble des nc classes d’individus à retrouver.

D = fD0; :::;Dng : la structure de dendrogramme associée aux données.

d(r)(xi; xj) : la distance au sens général entre deux individus xi et xj dans r.

jjx(r)

i 􀀀 x(r)

j jjp : la distance de Minkowski entre deux individus xi et xj dans r.

ML(r) : l’ensemble des (xi; xj) 2 X2 devant être regroupés dans r.

CL(r) : les (xi; xj) 2 X2 devant être séparés dans r.

A(r) : l’algorithme de clustering employé pour obtenir C(r).

Link(r)(xi; xj) : xi et xj sont regroupés par A(r) ou dans C(r).

Link

(r)

(xi; xj) : xi et xj sont séparés par A(r) ou dans C(r).

H(r) 2 f0; 1gn_n : la matrice de clustering associée à C(r)

4.2. CONTEXTE 147

4.2 Contexte

le clustering d’ensemble

La problématique du clustering d’ensemble peut être définie ainsi : À partir d’un ensemble

de partitions d’un même ensemble d’individus X, trouver une partition consensus de l’ensemble

d’individus. Le partition consensus est telle qu’elle doit être proche de chaque élément du profil

(ou de l’ensemble) de partitions donné. Les algorithmes de la famille clustering d’ensemble ou

consensus clustering visent simultanément plusieurs objectifs :

la réutilisation des connaissances et des outils de clustering existants lorsque d’une part on

a à disposition plusieurs clusterings concernant l’ensemble d’individus X (émanant potentiellement

de plusieurs vues différentes) que l’on souhaite utiliser sans réanalyser les données,

et les combiner pour obtenir une solution plus robuste. D’autre part, si les clusterings

ne sont pas connus, il est possible d’utiliser les algorithmes existants sur plusieurs vues

des données, contenant un ensemble plus petits de descripteurs, et pour lesquelles les

algorithmes classiques employés ont prouvé leur efficacité (KM, SOM, DBSCAN, etc.) ;

la décentralisation des calculs concerne le cas où les données sont effectivement décentralisées,

i.e. réparties sur plusieurs sites. Dans ce contexte il peut être préférable d’effectuer

les clusterings en parallèle sur chaque site, notamment si il n’est pas possible de réunir les

différentes parties des données à analyser en raison de limites de stockage ou de réseau.

le respect de la confidentialité des données notamment lorsque les données sont décentralisées

selon les variables descriptives ou attributs. Dans ce contexte, il est important

que chaque partie des variables ne soit observée que par l’algorithme de clustering local

employé, et inaccessible des autres algorithmes de clusterings. Seul l’information local

d’appartenance des individus aux groupes peut alors être utilisé pour obtenir une solution

consensus.

La littérature est marquée par la proposition de [Strehl and Ghosh, 2003] qui a permis de

bien resituer la problématique du clustering d’ensemble dans les contextes applicatifs récents tels

que présentés précédemment. La thématique a été par ailleurs considérablement étudiée et les

approches, enrichies [Vega-Pons and Ruiz-Shulcloper, 2011]. En réalité le problème tel qu’il est

formulé, est adressé depuis bien plus longtemps, notamment par la communauté francophone

et les travaux de Simon Régnier [Regnier, 1965] sur la recherche de partition médiane. Ces

travaux ont également été réactualisés par la même communauté au travers par exemple, la

contribution de [Guénoche, 2011].

le clustering collaboratif

Différents chercheurs se sont également intéressés au problème semblable mais dont on peut

faire la distinction du clustering collaboratif pour lequel on s’autorise à modifier les différents

clusterings de base du profil afin de les enrichir et d’améliorer leur qualité en les combinant,

comme l’ont proposé [Wemmert et al., 2000]. Enfin, d’autres approches ont été développées

dans le même esprit afin d’obtenir un ensemble de clusterings consensus en combinant les différents

clusterings de base, tout en assurant une certaine dissimilarité entre les clusterings de l’ensemble

produit [Faceli et al., 2009]. Cette dernière approche notamment permet d’introduire la

deuxième problématique à laquelle les contributions de ce chapitre apportent une solution :

l’alternative clustering.

l’alternative clustering

La problématique de l’alternative clustering est la suivante : À partir d’un tableau relationnel

ou descriptionnel sur l’ensemble d’individu X, trouver un ensemble de clusterings de X tel que :

148 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

X(1)

X(r)

X(nr )

A(1)

A(r)

A(nr )

C(1)

C(r)

C(nr )

Γ

C

X(1)

X(r)

X(nr )

A(1)

A(r)

A(nr )

C(1)

C(r)

C(nr )

Γ

C

X

A(1)

A(r)

A(nr )

C(1)

C(r)

C(nr )

Γ-1

FIGURE 4.1 — Les différents paradigmes du clustering d’ensemble, clustering collaboratif et alternative

clustering. Dans l’ordre ci-dessus, (1) la recherche d’un clustering consensus (contrôlée par une fonction

ou un algorithme de consensus 􀀀) à partir d’un ensemble de clusterings issus d’algorithmes quelconque

A(r), (2) la recherche d’un clustering consensus à partir d’un mécanisme de collaboration 􀀀 remettant

en cause les différents clusterings des données et enfin (3) la recherche d’un ensemble de clusterings

alternatifs contrôlé par une stratégie (fonction ou algorithme) de divergence 􀀀􀀀1, à partir d’un jeu de

donnée mono-vue.

– chaque clustering soit de bonne qualité, au sens d’une mesure de qualité usuelle (inertie

de KM, vraisemblance pour EM, etc.) ;

– chaque clustering soit dissimilaire des autres au sens d’une mesure de similarité ou dissimilarité

particulière.

Les algorithmes de la famille alternative clustering ont pour objectif d’offrir à un utilisateur

un plus vaste choix de résultats pour l’analyse exploratoire dans un contexte purement applicatif.

Ces approches permettent également d’identifier des structures de groupes différentes et

potentiellement intéressantes dans l’analyse de données de grande dimensionnalité.

Les approches se sont majoritairement développées ces dernières années et utilisent des principes

aussi vaste que pour le clustering simple. Les approches proposées reposent sur des adaptations

d’algorithmes de clustering hiérarchique [Bae and Bailey, 2006], de modèles de mélanges

[Dang and Bailey, 2010] ou bien encore sur des techniques indépendantes de l’algorithme de

clustering en réalisant un apprentissage de distance adapté [Davidson and Qi, 2008].

Les différentes contributions proposées répondant aux problématiques peuvent être schématisés

comme dans la figure 4.1. Les contributions proposées sont des instanciations particulières

d’une plateforme générale permettant la combinaison d’algorithmes de clusterings et capable de

déterminer :

– un clustering consensus pour des données multi-vues, ou pour des données mono-vue explorées

par des algorithmes différents ainsi qu’un ensemble de distances adaptées ou différentes

combinaison linéaires des variables descriptives des données permettant d’atteindre

ce consensus ;

– un ensemble de clusterings alternatifs pour un jeu de données mono-vue, ou éventuellement

multi-vues, ainsi que les distances ou combinaisons linéaires des variables descriptives

correspondantes.

L’approche proposée est générique et ne nécessite pas de connaître les algorithmes de clusterings

employés. De plus, contrairement à la quasi-intégralité des méthodes présentées précédemment,

elle exploite les représentations vectorielles des individus lorsqu’elles sont disponibles. Enfin,

elle se décline en deux versions, COBOC et ALTERBOC répondant aux deux problématiques

posées.

4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 149

4.3 Approches de type ensemble de clusterings

4.3.1 Clustering consensus par ensemble de clusterings

L’approche de clustering ensemble (CE) [Strehl and Ghosh, 2003] est une approche algorithmique,

conçue pour obtenir un clustering unique consensus à partir d’un profil de partitions

_ = fC(r)gr2[1::nr] d’un même ensemble d’individus X. Les auteurs proposent à la fois une

mesure de comparaison entre clusterings fondée sur des éléments de théorie de l’information :

l’information mutuelle normalisée, qu’un moyen heuristique d’optimiser un critère reposant sur

cette comparaison pour trouver le clustering consensus .

Objectif

L’objectif est de construire un clustering C_ des individus, le plus proches possible de chaque

partition du profil _, au sens de l’information mutuelle normalisée (cf. section 1.5.3.2) :

C_ = arg max

C

QCE(C; _)

Avec

QCE(C; _) =

1

nr

Xnr

r=1

NMI(C;C(r))

Soit 􀀀 l’heuristique permettant de trouver un optimum du critère précédent. Les auteurs

proposent trois heuristiques différentes correspondant à 􀀀 : CSPA, HGPA et MCLA. Ceux-ci

détermine l’algorithme appliqué (algorithme 27).

Algorithme

CSPA. La première heuristique développée consiste à compter en moyenne pour chaque paire

d’individu (xi; xj) 2 X2, le nombre de fois où ceux-ci sont regroupés parmi toutes les partitions

disponibles. Ainsi, les valeurs obtenues sont comprises entre 0 et 1 et la fonction associée se

comporte comme une mesure de similarité K, une forte valeur de Kij correspondant au fait

que xi et xj soient fréquemment regroupés dans les différents clusterings du profil. Soit H(r) la

matrice du r-ième clustering, la fonction K de similarité ainsi produite est définie par :

K(r) =

1

nr

Xnr

r=1

H(r)

Une fois ces valeurs de similarité établies entre les individus, les auteurs proposent d’appliquer

un algorithme de clustering adapté capable de produire un unique clustering à partir

d’une matrice de similarité, comme l’algorithme METIS [Karypis and Kumar, 1998], adapté au

partitionnement de graphes en groupes de tailles homogènes.

HGPA. La seconde heuristique développée propose de construire un hyper-graphe à partir des

différentes partitions. Dans chaque partition, chaque groupe C(r)

k correspond à une hyper-arête

qui relie simultanément les individus membres de ce groupe. Dans l’hyper-graphe, un individu xi

est alors relié via r hyper-arêtes, à nr groupes potentiellement différents. L’objectif de HGPA est

alors, à partir de l’hyper-graphe, d’identifier un nombre minimal d’hyper-arêtes à enlever afin de

déconnecter l’hyper-graphe en nk groupes disjoints, éliminant ainsi les recouvrements induits

par l’appartenance de certains individus à des groupes différents dans chaque vue. Ce problème

est résolu via les approches de clustering d’hyper-graphe. Les auteurs proposent d’utiliser pour

ce faire l’algorithme HMETIS.

150 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

MCLA. La dernière heuristique proposée correspond à une approche algorithmique de clustering

de groupes. L’objectif est d’identifier parmi les différents groupes présents dans toutes

les partitions ceux qui sont proches, et de les regrouper par clustering afin de déterminer globalement

les k meta-groupes les plus représentatifs. De plus, les auteurs proposent un moyen

de définir pour chaque meta-groupe Mk ainsi déterminé et chaque individu xi de ce groupe, la

contribution de xi à la définition de Mk.

De manière plus détaillée, l’approche MCLA est séparable en quatre étapes que sont :

1. La construction d’un meta-graphe, dans lequel les sommets correspondent aux différents

groupes C(r)

k présents dans les différentes partitions C(r) et les arêtes reflètent une similarité

entre groupes. La similarité proposée par les auteurs est l’indice de Jaccard (1.20)

qui mesure, dans ce contexte, pour deux groupes donnés C(r)

k et C(r)

k0 (deux sommets), la

proportion de paires d’individus présents simultanément dans ces deux groupes :

K(C(r)

k ;C(r0)

k0 ) = Jaccard(C(r)

k ;C(r0)

k0 )

En particulier, les clusterings C(r) étant supposés stricts, on a l’égalité suivante :

K(C(r)

k ;C(r0)

k0 ) = 0 8r 2 [1::nr]; 8k 6= k0

2. Le clustering du meta-graphe permet quant à lui d’identifier k meta-groupes représentatifs

des différents groupes des individus issus de toutes les partitions du profil. L’idée étant

d’identifier la correspondance entre les groupes dans les différentes partitions. En ce sens,

deux groupes en forte correspondance issus de deux partitions différentes devraient appartenir

à un même meta-groupe. Cette correspondance est directement déduite de la mesure

de Jaccard et le clustering est réalisé au moyen de l’algorithme METIS. On obtient alors un

meta-clustering M qui est une partition de l’ensemble

S

r2[1::nr] C(r).

3. La consolidation des meta-groupes permet de redéfinir ces meta-groupes proprement comme

des meta-hyper-arêtes correspondantes aux différents groupes du meta-groupe (la consolidation

est réalisée par ajout d’hyper-arêtes). Chaque meta-groupe Mk est associé à un

vecteur de contributions des individus xi 2 X à la définition de ce meta-groupe. Soit

H(r) 2 f0; 1gn_nk la matrice indiquant pour chaque individu xi le groupe auquel il appartient

:

H(r)

ik =

(

1 si xi 2 C(r)

k

0 sinon

Cette contribution uik de l’individu xi au meta-groupe Mk est obtenue par :

uik =

1

nrjMkj

Xnr

r=1

X

C(r)

k0 2Mk

Z(r)

ik0

4. L’affectation des individus afin d’obtenir le clustering consensus C final est réalisée selon

les valeurs de contributions déterminées à l’étape précédente. Ainsi, si l’on s’autorise à

interpréter les valeurs de contributions comme des probabilités a posteriori, la règle MAP

est alors appliquée. Autrement dit les individus sont effectivement affectés au meta-groupe

pour lequel sa contribution est la plus importante :

xi 2 Ck , k = arg max

k02[1::nk]

uik0

4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 151

Enfin, les auteurs proposent de définir, pour une meilleure interprétabilité des résultats, une

confiance pour chaque affectation des individus. Ainsi cette confiance s’exprime comme la valeur

de contribution au groupe auquel l’individu est affecté, relativement à toutes les autres valeurs

de contribution de cet individu :

_i =

uik

Xnk

k=1

k6=k

uik

8xi 2 Ck

Algorithme 27 CE

ENTRÉES : X, nk, 􀀀

SORTIES : C = fC1; :::;Cnkg

1 : Génération de fC(r)gr2[1::nr] par nr clusterings différents de X

2 : C = 􀀀(fC(1)

1 ; : : : ;C(1)

n(1)

k

; : : : ;C(nr)

1 ; : : : ;C(nr)

n(nr)

k

g)

Discussion

L’apport de l’approche de clustering ensemble réside essentiellement dans les heuristiques de

combinaisons de partitions. MCLA semble correspondre au meilleur compromis entre la qualité

du consensus obtenu au sens de l’information mutuelle normalisée et l’efficacité au sens de la

complexité algorithmique (O(n:n2

k:n2r

)). L’heuristique HGPA est la plus efficace en complexité

algorithmique (O(n:nk:nr)) mais peine à être efficace dans l’obtention d’une solution consensus.

CSPA est l’heuristique la plus complexe (O(n2:nk:nr)) mais est aussi efficace que MCLA et offre

une flexibilité dès lors que l’on s’autorise à utiliser un autre algorithme de clustering que METIS.

Finalement l’inconvénient majeur que l’on peut formuler est que les clusterings de l’ensemble

ne sont jamais remis en question pour faciliter l’obtention d’une meilleure solution consensus

et les heuristiques proposées n’utilisent pas, même localement les variables descriptives si elles

existent.

4.3.2 Consensus de partitions

Parmi les premières approches cherchant à obtenir un clustering consensus à partir d’un

ensemble de clusterings ou partitions de base figurent celles dédiées à la problématique de partition

médiane ou partition centrale. Cette problématique fut étudiée très tôt dans la communauté

francophone de classification notamment par Simon Régnier [Regnier, 1965] et reprise et développée

plus récemment dans les travaux d’Alain Guénoche [Guénoche, 2011].

Objectif

Le problème est posé comme la recherche d’une solution optimale à un problème d’optimisation

défini informellement comme la recherche d’un nouveau clustering des individus proche,

selon une mesure de similarité S particulière, de tous les clusterings présents dans l’ensemble.

Formellement le clustering consensus est défini comme l’optimum du critère objectif :

max

C

Q0

FT(C; _) = max

C

Xnr

r=1

S(C;C(r)) (4.1)

152 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

S(C;C(r)) = n(n􀀀1)

2 􀀀 j_(C;C(r))j et _(C;C(r)) est la distance des différences symmétriques

entre les clusterings C et C(r). Soit H(r) la matrice des résultats du r-ième clustering de

l’ensemble (que l’on supposera être le résultat d’un algorithme A(r)) :

H(r)

ij =

(

1 si Link(r)(xi; xj)

0 si Link

(r)

(xi; xj)

(4.2)

Soit H la matrice des hypothèses du clustering consensus en construction, la distance des

différences symmétriques revient à compter le nombre de paires d’individus (xi; xj) 2 X2 pour

lesquelles les hypothèses de clusterings Hij et H(r)

ij sont différentes. Le critère (4.1) est équivalent

en maximisation au critère QFT défini par :

QFT(H) = Hij

X

(xi;xj )2X2

 

Xnr

r=1

H(r)

ij

!

􀀀

nr

2

!

(4.3)

(4.4)

Soit Wij =

 

Xnr

r=1

H(r)

ij

!

􀀀

nr

2

!

, le problème d’optimisation peut alors être posé :

max

H

QFT(H) = max

H

X

(xi;xj )2X2

i_j

HijWij

s:c: Hij 2 f0; 1g 8(xi; xj)i_j 2 X2

Hij + Hjk 􀀀 Hik _ 1 8(xi; xj ; xk)i6=j6=k 2 X3

(4.5)

Algorithme

Les auteurs proposent de résoudre ce problème par un algorithme adapté (algorithme 28),

FUSION-TRANSFERT (FT), composé de deux étapes. L’étape de fusion fait appel à une heuristique

et s’inspire du principe de classification ascendante hiérarchique AGNES (cf. section 1.2.2)

pour lequel le critère d’arrêt n’est pas l’obtention de la partition à 1 groupe contenant tous

les individus, mais l’atteinte d’une partition maximale selon le critère QFT. Ainsi, partant de

la partition atomique correspondant à l’ensemble des singletons d’individus, le principe est de

fusionner à chaque étape les deux groupes ou amas tels que l’amélioration du critère soit maximum.

Partant de Ai = fxig et D0 = fAigi2[1::n]. D est la structure de dendrogramme associée à

la classification hiérarchique.

Soit W(Ak) =

P

(xi;xj )2A2

k

Wij , et soit un clustering de X en nk amas, le critère QFT peut

alors être réécrit :

QFT(A1; : : : ;Ank ) =

Xnk

k=1

W(Ak) (4.6)

Soit _i l’ensemble des paires d’amas candidates pour la fusion :

_i = f(Ak;Ak0) 2 D2

i􀀀1 j (W(Ak [ Ak0) 􀀀 (W(Ak) +W(Ak0))) _ 0g

_i est l’ensemble des paires d’amas de Di􀀀1 qui apporte un gain au critère QFT. La règle

permettant d’obtenir le clustering correspondant à Di et maximisant QFT est la suivante :

(Ak;Ak0) = arg max

(Al;Al0 )2_i

W(Al [ Al0) ) Di = Di􀀀1 n (Ak;Ak0) [ fAk [ Ak0g (4.7)

4.3. APPROCHES DE TYPE ENSEMBLE DE CLUSTERINGS 153

Ce principe de fonctionnement est simple et en général efficace, mais il souffre du problème

bien connu des approches de classification hiérarchique qui est la non remise en cause des

fusions réalisées.

Pour outre-passer ce défaut et améliorer la qualité de la partition consensus, l’étape de transfert

propose de déplacer certains éléments susceptibles d’améliorer QFT. On calcul pour ce faire

un nouveau poids uik pour chaque individu xi et chaque groupe Ck déterminé à l’issue du processus

de fusion, selon l’équation suivante :

uik =

X

xj2Ck

Wij (4.8)

Ainsi uik modélise bien la contribution de l’individu xi au groupe Ck. En particulier, si xi 2

Ck, uik correspond à la contribution de xi à la valeur du critère QFT. De la même façon, on

définit pour chaque individu xi 2 Ck un gain de transfert _ de Ck à Ck0 par la formule :

_(xi;Ck;Ck0) = uik0 􀀀 uik (4.9)

La procédure de transfert consiste alors à déplacer parmi tous les individus, celui qui maximise

le plus son éventuel gain de transfert, dont les différents paramètres optimaux sont définis

formellement par :

(C_

k ; C_

k0 ; x_i

) = arg max

(k;k0)2[1::nk]2; xi2Ck

_(xi;Ck;Ck0) (4.10)

Ainsi deux cas peuvent se produire :

– le gain maximum de transfert est positif ou nul, auquel cas on transfère effectivement

l’individu x_i

du groupe C_

k au groupe C_

k0 :

_(x_i

;C_

k ;C_

k0) _ 0 )

_􀀀

(C_

k = C_

k n fx_ig) ^ (C_

k0 = C_

k0 [ fx_i

g)

__

(4.11)

– le gain maximum de transfert est négatif, auquel cas on transfère l’individu x_i

du groupe

C_

k à un nouveau groupe Ck00 :

_(x_i

;C_

k ;C_

k0) < 0 )

_􀀀

(C_

k = C_

k n fx_i

g) ^ (Ck00 = fx_i

g)

__

(4.12)

Algorithme 28 FT

ENTRÉES : X, fC(r)gr2[1::nr]

SORTIES : C = fC1; :::;Cnkg

1 : Initialiser Ai = fxig et D0 = fAigi2[1::n]

2 : Application AGNES sur X en utilisant la règle (4.7) pour obtenir C

3 : Déterminer (C_

k ; C_

k0 ; x_i

) selon (4.10)

4 : Transférer x_i

selon (4.11) ou (4.12)

Discussion

154 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

L’algorithme FT est une approche heuristique permettant d’atteindre un clustering consensus

formulé comme la recherche de la partition médiane de l’ensemble ou profil des clusterings de

base. L’approche a comme défaut de reposer sur un algorithme hiérarchique qui ne permet pas

à lui seul de corriger la construction d’une mauvaise hiérarchie menant à un mauvais clustering

au dernier niveau du dendrogramme mais atteignant un optimum du critère QFT. Ce défaut est

corrigé par la procédure de transfert, mais l’ensemble des deux procédures mène à une approche

complexe (O(nr:n2) + O(n3)).

À l’instar de CE, FT se place dans un cadre où les clusterings de base ne sont jamais remis

en question et de plus les variables descriptives des individus, si elles existent, ne sont pas

exploitées.

4.4 Approches collaboratives

4.4.1 SAMARAH : système d’apprentissage multi-agents de raffinement

automatique de hiérarchies

La méthode SAMARAH [Wemmert et al., 2000] est une approche essentiellement algorithmique

qui a pour objectif de trouver un consensus entre plusieurs méthodes de clustering à

travers un mécanisme contrôlé de collaboration entre ces différentes méthodes. L’objectif affiché

est l’amélioration de la robustesse d’une solution de clustering en minimisant l’impact du

choix d’une méthode de clustering particulière ou de ses paramètres.

Algorithme

SAMARAH (algorithme 29) repose sur différentes étapes :

– la génération de clusterings initiaux qui consiste à obtenir différents clusterings à partir

d’un même jeu de données. Les auteurs proposent dans leur contexte d’appliquer différentes

méthodes de clusterings ou une même méthode de clustering avec des paramètrages

différents ;

– le raffinement des résultats qui a pour but d’identifier des conflits et de les résoudre. Ces

conflits correspondent à des différences observées entre les clusterings produits, décidées

à partir de l’évaluation d’une similarité entre ces derniers. À l’issue du raffinement, les

différentes partitions sont supposées devenir plus similaires entre elles, et chacune peut

alors être considérée comme une partition consensus ;

– La combinaison des résultats qui cherche à déterminer une solution unique de clustering

à partir des différentes partitions raffinées. Cette étape correspond alors pleinement à la

problématique de clustering ensemble.

L’étape la plus importante est la seconde puisque c’est elle qui fait intervenir le mécanisme

de collaboration 􀀀 entre les différentes méthodes de clusterings. Les résultats de clustering et

les distributions des objets au sein des groupes des différents résultats sont comparés via les

matrices de confusion M 2 Nnk_nk pour tout couple de groupes issus de clusterings différents.

Cette matrice permet d’observer globalement les différences deux à deux entre clusterings. Elle

est définie par :

M(r)(r0)

kk0 =

jC(r)

k \ C(r0)

k0 j

jC(r)

k j

8(r; r0) 2 R2; 8(C(r)

k ;C(r0)

k0 ) 2 C(r) _ C(r0)

Les auteurs proposent d’utiliser cette matrice de confusion pour établir une mesure de similarité

entre deux groupes issus de clusterings différents. Cette mesure notée K est définie

4.4. APPROCHES COLLABORATIVES 155

par :

K(C(r)

k ;C(r0)

k0 ) = _(r)(r0)

k M(r0)(r)

k0k et _(r)(r0)

k =

n(r0)

Xk

k0=1

M(r)(r0)

kk0

Le choix d’une telle mesure de similarité permet de quantifier et d’ordonner les correspondances

entre les groupes issus de vues différentes. Notamment, étant donnés le k-ième groupe

du clustering C(r) et un clustering C(r0), il est possible de déterminer le meilleur correspondant

de C(r)

k parmi les groupes de C(r0) par :

f_(C(r)

k ;C(r0)) = arg max

C(r0)

k0 2C(r0)

K(C(r)

k ;C(r0)

k0 )

À partir de cette correspondance est définit le conflit. Si un groupe ne se retrouve pas complètement

dans un clustering, i.e. K(C(r)

k ; f_(C(r)

k ;C(r0))) < 1, alors il y a conflit. Cette règle

permet de définir un ensemble des conflits _ comme l’ensemble des couples (C(r)

k , C(r0)) tel que

le groupe C(r)

k ne soit pas en parfaite correspondance avec un des groupes du clustering C(r0) :

_ = f(C(r)

k ;C(r0))jr 6= r0 ^ K(C(r)

k ; f_(C(r)

k ;C(r0))) < 1g

Cet ensemble est muni d’une relation d’ordre pour former une liste qui est traité par l’algorithme

de résolution des conflits. La première stratégie proposée par les auteurs consiste à ordonner

les couples de l’ensemble par la valeur de similarité entre les groupes et leurs meilleurs

correspondants. Plus la similarité entre un groupe et son meilleur correspondant dans un autre

clustering est faible et plus le conflit est grand. La résolution de ces conflits a alors lieu dans un

processus itératif où chaque étape revient à apporter des modifications sur les différentes partitions

impliquées dans le conflit courant au travers l’application de trois opérateurs que sont :

– la fusion de groupes : les individus de deux groupes d’un même clustering sont réunis dans

un seul groupe ;

– la scission d’un groupe : un clustering est appliqué aux individus d’un groupe donné ;

– le reclustering : un groupe donné est retiré, et les individus de ce groupe sont réaffectés

aux autres groupes.

Le choix des opérateurs à appliquer est décidé à l’aide d’un paramètre _ supplémentaire

dépendant du nombre de groupes impliqués dans le conflit. En d’autres termes, pour un couple

conflictuel (C(r)

k ;C(r0)) donné, le paramètre dépend de la distribution des individus de C(r)

k dans

C(r0). Ainsi, si les valeurs de similarité caractérisant ce couple sont plus grandes que le paramètre

_ : K(C(r)

k ;C(r0)

k0 ) _ _ 8C(r0)

k0 2 C(r0), alors C(r0)

k0 est considéré comme un bon contributeur pour

la correspondance.

Si il n’y a pas de bons contributeurs pour le conflit (C(r)

k ;C(r0)) alors l’opérateur de reclustering

est appliqué sur C(r)

k . En revanche, soit m le nombre de bons contributeurs pour C(r)

k dans

C(r0), les auteurs proposent de construire les clusterings C0(r) et C0(r0) tels que :

C0(r) corresponde à C(r) où le groupe C(r)

k est scindé en m;

C0(r0) corresponde à C(r0) où les m bons contributeurs sont fusionnés.

Les auteurs proposent alors deux fonctions de qualité, non retranscrites ici, locale et globale

pour décider de l’application effective des opérateurs. La fonction de qualité locale, permet de

trouver la paire de clusterings optimale (C_(r);C_(r0)) parmi les paires (C(r);C(r0)), (C(r);C0(r0)),

(C0(r);C(r0)) et (C0(r);C0(r0)). La paire optimale obtenue implique une mise à jour des clusterings

correspondant. Cependant cette mise à jour n’est effective que selon le comportement de la

fonction de qualité globale. Ainsi :

156 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

– si la résolution locale (entre deux vues) du conflit améliore la qualité globale, alors la mise

à jour est réalisée et les conflits sont recalculés ;

– si (C_(r);C_(r0)) = (C(r);C(r0)), alors le conflit n’a pas d’intérêt et est retiré de la liste à

résoudre ;

– si la résolution locale du conflit déteriore la qualité globale, celui-ci est résolu, sous réserve

qu’une amélioration de la qualité globale soit observée au plus après la résolution de la

moitié des conflits restants.

Pour finir, et même si chaque partition raffinée est issue d’une procédure collaborative tendant

vers un consensus, une combinaison des résultats raffinés est réalisée par une procédure

de vote entre les différents algorithmes de clusterings locaux, sur le meilleur groupe correspondant

à chaque individu. Ceci afin d’obtenir une unique partition consensus, dans la suite des

approches de clustering d’ensemble.

Algorithme 29 SAMARAH

ENTRÉES : X, _

SORTIES : C = fC1; :::;Cnkg

1 : Générer nr clusterings fC(r)gr2[1::nr] à partir de X

2 : Raffiner itérativement chaque C(r) en résolvant les conflits

3 : C = V ote(fC(r)gr2[1::nr])

Discussion

L’approche SAMARAH, illustrative des approches de clustering collaborative, se distingue des

approches de type clustering ensemble par la remise en cause des partitions du profil via l’étape

de raffinement des résultats. L’approche permet de concilier plusieurs partitions en nombre de

groupes différents. Elle possède également les différents avantages des approches de clustering

ensemble que sont la réutilisation des connaissances, la décentralisation des calculs et le respect

de la confidentialité des données. Néanmoins, à l’instar des approches précédentes, elle n’utilise

pas les descriptions des individus lorsqu’elles sont disponibles. L’approche SAMARAH a

également été étendue dans le cadre de la thèse de [Forestier, 2010], par l’ajout de nouvelles

stratégies de résolution de conflits et également par la prise en compte de connaissances externes

pour guider la recherche d’un clustering consensus par semi-supervision.

4.4.2 MOCLE : clustering d’ensemble multi-objectif

L’approche multi-objectif pour le clustering ensemble MOCLE proposée par [Faceli et al., 2009]

vise à produire non pas un clustering consensus mais un ensemble de clusterings consensus. À

partir d’un ensemble de clusterings initiaux, les auteurs proposent d’appliquer un algorithme

génétique permettant de maintenir à chaque itération ou génération un tel ensemble de clusterings.

Il s’agit d’une approche principalement algorithmique (algorithme 30) qui se décline ainsi

en deux étapes que sont :

– la génération de partitions de base réalisée de la même manière que pour l’approche

SAMARAH;

– la recherche d’un ensemble de partitions consensus différentes réalisant chacune un compromis

particulier de plusieurs critères objectifs.

4.4. APPROCHES COLLABORATIVES 157

L’apport principal de cette approche réside dans la seconde étape qui fait appel à deux opérateurs,

croisement et sélection, permettant de faire évoluer la population de solutions potentielles

(les différentes partitions de base) vers l’objectif visé.

L’opérateur de croisement permet, à partir d’une paire de partitions de la population, d’obtenir

une nouvelle partition consensus. Les paires de partitions sont sélectionnées aléatoirement

selon le principe de tournoi binaire. Même si l’approche MOCLE vise à offrir un paradigme très

généraliste pour la production de plusieurs partitions consensus, il est nécessaire de spécifier effectivement

cet opérateur de croisement. Les auteurs proposent d’utiliser l’algorithme MCLA (cf.

section 4.3.1). Les nouvelles partitions sont alors ajoutées à la population existante.

Le deuxième opérateur a pour but de limiter la taille de la population, afin d’éviter de maintenir

une sous population de faible qualité. Ainsi les auteurs proposent de définir différents

critères permettant d’identifier les partitions de bonne qualité. L’opérateur de sélection consiste

à déterminer, parmi les partitions de la population, celles qui approximent le mieux le front de

Pareto correspondant aux optima de ces différents critères.

Les critères proposés pour évaluer chaque partition C(r) sont (1) l’inertie Q(r)

inrt (à minimiser)

ainsi que (2) sa connectivité Q(r)

con (à minimiser). L’inertie de la partition C(r) est définie comme

une somme des inerties intra-groupes par le critère correspondant à celui de KM :

Q(r)

inrt =

n(r)

Xk

k=1

X

xi2C(r)

k

jjx(r)

i 􀀀 c(r)

k jj22

(4.13)

La connectivité est mesurée en observant le nombre de fois ou deux individus voisins se

retrouvent dans un même groupe :

Q(r)

con =

X

xi2X

nX􀀀1

j=1

_(r)(xi;N(r)

j (xi)) (4.14)

N(r)

j (xi) correspond au j-ième plus proche voisin de xi dans la partition C(r) et _(r) est définit

par :

_(r)(xi;N(r)

j (xi)) =

(

1

j si Link

(r)

(xi;N(r)

j (xi))

0 si Link(r)(xi;N(r)

j (xi))

Ainsi, la connectivité est nulle (minimale) lorsque tous les voisins de chaque individu (pour

un voisinage de taille arbitrairement grand) sont regroupés avec celui-ci i.e. lorsqu’il n’y a qu’un

seul groupe.

L’objectif est alors d’identifier parmi les partitions de la génération courante, celles qui optimisent

(minimisent) simultanément ces deux critères.

Discussion

On remarque que sans contraintes sur le nombre de groupes présents dans une partition

donnée, le critère inertiel Q(r)

inrt favorisera la solution dégénérée de partition atomique i.e. en

singletons, alors que le critère de connectivité Q(r)

con favorisera la solution dégénérée d’un seul

groupe contenant tous les individus. Néanmoins les auteurs proposent de contraindre la taille

des groupes notamment lors de l’application de l’opérateur de croisement, le nombre de groupes

158 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Algorithme 30 MOCLE

ENTRÉES : X, tf

SORTIES : fC(r)gr2[1::nr]

1 : Générer nr clusterings fC(r)gr2[1::nr] à partir de X.t = 0

2 : Appliquer le croisement sur fC(r)gr2[1::nr]

3 : Augmenter fC(r)gr2[1::nr] avec les résultats du croisement

4 : Sélectionner les clusterings dominants au sens des critères (4.13) et (4.14)

5 : Si t < tf aller en 2

de la partition consensus obtenue devant être compris entre les valeurs des nombres de groupes

des partitions parentes sélectionnées lors du tournoi. On peut formuler néanmoins l’hypothèse

que les solutions optimales approximant le front de Pareto seront telles que les partitions de

nombre de groupes élevé seront favorisées par le terme d’inertie et inversement les partitions en

faible nombre de groupe seront favorisées par le terme de connectivité, dans une autre région du

front. Pour finir, sous l’hypothèse que deux clusterings issus de deux régions différentes du front

(approximant des optimums différents des critères) sont des solutions de clustering différentes,

alors MOCLE permet l’obtention de partitions alternatives entre elles. Ceci permet d’élargir

l’analyse exploratoire pour diversifier l’interprétation des résultats. La problématique spécifique

de la recherche de partitions alternatives est l’objet de la prochaine section.

4.5 Approches alternatives

Le but des approches de clustering alternatif est d’obtenir un ensemble de clusterings en adéquation

avec la distribution naturelle des individus et différents les uns par rapport aux autres.

La première condition est appelée critère de qualité et le second est un critère de dissimilarité.

Ainsi le compromis recherché (à maximiser) peut être exprimé simplement sous la forme

générale suivante :

clustering alternatif =

Xnr

r=1

objectif local(r) + désaccord(_) (4.15)

La forme générale laisse apparaître un formalisme proche du clustering multi-vues (2.1),

mais cette fois le désaccord est recherché et donc, à maximiser et non pas à minimiser.

L’objectif est d’apporter à un utilisateur différentes analyses d’un même jeu de donnée lors

d’une réelle analyse exploratoire, afin de permettre la découverte de motifs différents mais cohérents,

dans les données.

4.5.1 COALA : clustering hiérarchique alternatif

L’approche COALA [Bae and Bailey, 2006] considère un premier clustering C(1) de X fixé.

Elle vise à répondre au problème posé comme la recherche d’un clustering C(2) différent de

C(1) par une approche purement algorithmique se fondant sur les méthodes agglomératives

hiérarchiques.

Algorithme

L’algorithme utilisé est le clustering par lien moyen ALINK (cf. section 1.2.2). Partant des

amas singletons Ai = fxig et D0 = fAigi21::n avec D la structure de dendrogramme associée

4.5. APPROCHES ALTERNATIVES 159

à la classification hiérarchique. Soit D la mesure de distance entre amas, les deux amas les

moins distants sont successivement fusionnés dans un processus itératif jusqu’à atteindre un

amas contenant l’ensemble des individus. Les auteurs proposent de biaiser la construction du

dendrogramme D en utilisant les connaissances du clustering C(1) avec l’objectif d’obtenir un

clustering C(2) dissimilaire.

L’approche suit alors plusieurs étapes pour répondre à cet objectif :

1. la génération de contraintes consiste à construire des contraintes de type CL, pour toute

paire d’individus appartenant au même groupe dans C(1), plus formellement :

CL = f(xi; xj) 2 X2 j Link(1)(xi; xj)g

Autrement dit, les contraintes traduisent l’inverse du résultat de C(1). L’algorithme COALA a

pour objectif de satisfaire les contraintes (xi; xj) 2 CL i.e. ne pas regrouper xi et xj déja

ensemble dans C(1).

2. la génération de candidats à l’agglomération permet d’identifier simultanément deux

paires d’amas qui sont susceptibles d’être regroupés à une itération particulière de l’algorithme

hiérarchique. Soit _i l’ensemble des paires d’amas candidates pour la fusion :

_i = f(Ak;Ak0) 2 D2

i g

et _+

i l’ensemble des paires d’amas candidates pour la fusion telles que la fusion de ces

amas ne violerai aucune contrainte CL :

_+

i = f(Ak;Ak0) 2 D2

i j 8(xi; xj) 2 Ak _ Ak0 ; (xi; xj) =2 CLg

On note :

d􀀀 : la distance entre les amas (A_i

;A_j

) les moins distants :

d􀀀 = min

(Ai;Aj )2_i

D(Ai;Aj)

d+ : la distance entre les amas (B_

i ;B_

j ) les moins distants satisfaisant les contraintes CL :

d+ = min

(Bi;Bj )2_+

i

D(Bi;Bj)

3. la détermination du candidat permet de décider effectivement laquelle des deux paires

candidates choisir afin d’atteindre l’objectif. Une première stratégie employable est de systématiquement

choisir les paires d’amas distants de d􀀀. Ceci permet d’atteindre l’objectif

de qualité mais ne tient pas du tout compte du clustering C(1), ainsi l’objectif de dissimilarité

n’est pas atteint. De manière duale, une seconde stratégie consiste à toujours fusionner

les paires d’amas distants de d+ permettant cette fois de réaliser le critère de dissimilarité,

mais non le critère de qualité. Ainsi les auteurs proposent d’introduire un nouveau paramètre

_, et modulent la décision en observant le ratio entre les valeurs de distances d􀀀 et

d+ :

d􀀀

d+ < _ ! Di = Di􀀀1 n A_i

n A_j

[ (A_i

[ A_j

) (4.16)

d􀀀

d+

_ _ ! Di = Di􀀀1 n B_

i n B_

j [ (B_

i [ B_

j ) (4.17)

Ainsi selon les valeurs de _ le compromis entre les deux objectifs de dissimilarité et de qualité

peut être atteint.

160 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Algorithme 31 COALA

ENTRÉES : X, C(1), n(2)

k , _

SORTIES : C(2)

1 : Construction de CL selon §1

2 : C(2) = Appliquer AGNES sur X selon les règles (4.16) et (4.17)

Discussion

Les auteurs ne proposent pas de moyens automatiques pour estimer la meilleure valeur du

paramètre _. Une proposition pour fournir un ensemble de clusterings alternatifs consiste à

appliquer récursivement COALA, puis enrichir les contraintes CL à chacune de ces applications.

Cette proposition est limitée car un trop grand nombre de clusterings alternatifs entraînera une

dégradation inévitable de la qualité.

4.5.2 ADFT : apprentissage de distance alternative

L’approche ADFT (Alternative Distance Function Transformation) [Davidson and Qi, 2008]

permet de générer deux clusterings alternatifs C(1) et C(2) de X. C(1) est obtenu classiquement

par application d’un algorithme de clustering quelconque A. L’apport principal de l’approche est

alors de proposer un algorithme simple et intuitif pour garantir l’obtention du clustering C(2)

alternatif à C(1).

Algorithme

ADFT (algorithme 32) est composée de cinq étapes :

1. la génération du premier clustering C(1) ;

2. la caractérisation de C(1) par génération d’un ensemble de contraintes ML et CL en adéquation

avec C(1), et apprentissage d’une nouvelle fonction de distance d(1) à partir de

l’ensemble des individus impliqués dans ces contraintes ;

3. le calcul d’une fonction de distance d(2) alternative à d(1) ;

4. la transformation de X (matrice représentant les données) en X0 en adéquation avec d(2) ;

5. le clustering de X représenté par X0 pour obtenir C(2).

L’étape d’apprentissage de distance caractérisant C(1) est l’application des travaux de recherches

de [Xing et al., 2002b] et ne fait pas l’objet d’adaptation particulière dans ADFT. Il

n’est pas non plus précisé la manière dont sont générées les contraintes utilisées.

En revanche, en supposant d(1)(xi; xj) connue 8(xi; xj) 2 X2, les auteurs proposent un

moyen optimal d’obtenir une distance alternative. Soit D(1) la matrice représentant la fonction

de distance telle que d(1)(xi; xj) =

q

(xi 􀀀 xj)D(1)(xi 􀀀 xj)> où les xi sont des vecteurs

lignes, la décomposition en valeurs singulières de D(1) offre une intuition particulière sur D(1) :

D(1) = U_V

L’intuition derrière la décomposition SV D est que la transformation réalisée par D(1) peut

être décomposée en une succession de trois transformations V , _ et U interprétables géométriquement

:

V décrit via ses vecteurs lignes une nouvelle base orthonormée ;

4.5. APPROCHES ALTERNATIVES 161

_ est une matrice diagonale dont les valeurs _jj dilatent (_jj > 1), ou compressent (_jj <

1) la j-ième dimension de la nouvelle base V ;

U effectue une rotation des axes via ses vecteurs colonnes.

Une distance entre les individus correspond alors à la création d’une nouvelle base orthogonale

V dans laquelle l’unité de la dimension est pondérée par les valeurs respectives de la

diagonale de _ et dans laquelle les données sont déplacées par rotation selon U. Partant de

cette interprétation de la distance d(1) apprise à partir de C(1), les auteurs proposent de déterminer

d(2) en modifiant les altérations des dimensions de la base orthogonale associée à D(1)

dans la décomposition SV D. En particulier les dimensions dilatés doivent être compressées, et

réciproquement. Les auteurs proposent alors d’utiliser l’inverse de la matrice _, ainsi la nouvelle

mesure de distance d(2) est définie à partir de sa matrice par :

D(2) = U_􀀀1V (4.18)

La transformation de X en une nouvelle représentation alternative X0 est obtenue en posant

:

X0 = D(2)>

X (4.19)

Pour finir, C(2) est obtenu en effectuant un clustering de X0.

Algorithme 32 ADFT

ENTRÉES : X, n(1)

k , n(2)

k , A

SORTIES : C(1);C(2)

1 : C(1) = appliquer A sur X représenté par X

2 : Calcul de D(1)

3 : Calcul de D(2) selon (4.18)

4 : Calcul de la nouvelle représentation X0 par (4.19)

5 : C(2) = appliquer A sur X représenté par X0

Discussion

L’apport principal de cette approche est de considérer l’obtention de solutions alternatives en

extrayant des contraintes ML et CL à partir d’un premier clustering optimal pour les données.

Néanmoins, l’approche ADFT est conçue pour trouver uniquement deux clusterings et ne semble

pas être extensible dans le même esprit au cas où l’on souhaite un nombre plus élevé d’alternatives,

sauf peut-être en sélectionnant à partir du premier clustering, différents ensembles de

contraintes menant à différentes matrices de distances.

4.5.3 CAMI : estimation d’un mélange de modèles alternatifs

L’approche CAMI développée par [Dang and Bailey, 2010], est une approche générative permettant

d’obtenir deux clusterings alternatifs à partir d’un unique jeu de donnée. L’approche est

fondée sur l’hypothèse d’un modèle de mélange gaussien censé avoir généré l’échantillon X et

l’objectif est de trouver deux ensembles de paramètres _(1) et _(2) du mélange tels que :

_(1) et _(2) sont de bons paramètres au sens où ils permettent de maximiser la logvraisemblance

des données ;

_(1) et _(2) induisent des clusterings différents sous l’hypothèse MAP.

Objectif

162 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

L’objectif est alors de simultanément :

– maximiser la log-vraisemblance des données paramétrée par _(1) : L(X;Z;_(1))

– maximiser la log-vraisemblance des données paramétrée par _(2) : L(X;Z;_(2))

– minimiser l’information mutuelle entre C(1) et C(2) conditionnellement aux paramètres

_ = (_(1);_(2)) : MI(C(1);C(2)j_)

Le critère global à optimiser s’exprime alors sous la forme :

QCAMI = L(X;Z;_(1)) + L(X;Z;_(2)) 􀀀 _MI(C(1);C(2))

L(X;Z;_(r)) =

X

xi2X

n(r)

Xk

k=1

z(r)

ik log(_(r)

k f(r)

k (x(r)

i ; _(r)

k )) (4.20)

MI(C(1);C(2)) =

nk

(1) X

k1=1

nk

(2) X

k2=1

MI(C(1)

k1

;C(2)

k2

j_) (4.21)

Algorithme

L’algorithme permettant d’obtenir les meilleurs paramètres _(1) et _(2) suit le principe de

EM (1.4.2), et alterne une étape de calcul de l’espérance de la log-vraisemblance des données

complétées connaissant une estimation courante des paramètres, puis une étape de maximisation

de cette espérance selon les paramètres.

Soient z(r)

ik = f(Z(r)

i = kjxi;__(r)) et ~z(r)

kl = f(C(r)

k jC(r)

l ;__(r)). L’étape du calcul de l’espérance

des variables latentes Z(r)

i est décomposée en un terme correspondant à la probabilité a

posteriori issue de la part des log-vraisemblances locales :

z(r)

ik =

_(r)

k N(xi 􀀀 _(r)

k ;_(r)

k )

Xnk

k0=1

_(r)

k0 N(xi 􀀀 _(r)

k0 ;_(r)

k0 )

(4.22)

avec r 2 f1; 2g, et un terme correspondant à la part d’information mutuelle :

~z(r)

kl =

_(r)

k _(r)

l N(_(r)

l 􀀀 _(r)

k ;_(r)

l + _(r)

k )

Xnk

k0=1

_(r)

k0 _(r)

l N(_(r)

l 􀀀 _(r)

k0 ;_(r)

l + _(r)

k0 )

(4.23)

(r; r) 2 f1; 2g2 et r 6= r.

La valeur de probabilité a posteriori z(r)

ik est d’autant plus forte que l’individu xi est proche de

la moyenne _(r)

k de la k-ième gaussienne relativement aux moyennes des autres gaussiennes du

clustering C(r) et selon la matrice de variance _(r). De la même manière, la valeur de probabilité

a posteriori ~z(r)

kl est d’autant plus forte que la moyenne _(r)

k de la k-ième gaussienne du clustering

C(r) est proche de la moyenne _(r)

l de la l-ième gaussienne du clustering C(r) relativement aux

autres gaussiennes de ce clustering.

L’étape de maximisation de l’algorithme EM consiste à maximiser en _ l’espérance sur Z de

la log vraisemblance L(X;Z;_(r)) (4.5.3). Les conditions d’optimalité du premier ordre donnent

4.6. CONTRIBUTIONS 163

les mises à jours optimales des paramètres _(r)

k et _(r)

k 8r 2 f1; 2g;C(r)

k 2 C(r) :

_(r)

k =

1

n 􀀀 _nk

(r)

0

@

X

xi2X

z(r)

ik 􀀀 _

nk

(r) X

l=1

~z(r)

kl

1

A (4.24)

_(r)

k =

X

xi2X

z(r)

ik _(r)

k

􀀀1

xi 􀀀 _

nk

(r) X

l=1

~z(r)

kl (_(r)

k + _(r)

l )􀀀1_rl

X

xi2X

z(r)

ik _(r)

k

􀀀1

􀀀 _

nk

(r) X

l=1

~z(r)

kl (_(r)

k + _(r)

l )􀀀1

(4.25)

La mise à jour de la matrice de variances/covariances est obtenue de sorte à maximiser une

borne inférieure du critère QCAMI :

_(r)

k =

X

xi2X

z(r)

ik (xi 􀀀 _(r)

k )(xi 􀀀 _(r)

k )>

X

xi2X

z(r)

ik 􀀀

_

2

Xnkr

l=1

~z(r)

kl

(4.26)

Algorithme 33 CAMI

ENTRÉES : X, n(1)

k , n(2)

k

SORTIES : C(1);C(2)

1 : Initialisation aléatoire des _r, 8r 2 f1; 2g

2 : Étape E : Mise à jour des z(r)

ik en utilisant (4.22)

3 : Étape E : Mise à jour des ~z(r)

kl en utilisant (4.23)

4 : Étape M : Mise à jour des _(r)

k en utilisant (4.24), (4.25) et (4.26)

5 : Si QCAMI change alors aller en 2

6 : C(r)

k = fxi 2 Xjz(r)

ik = max

k02[1::nk]

z(r)

ik0 g, 8k 2 [1::nk]

Discussion

L’approche CAMI propose de résoudre la problématique de clustering alternatif sous l’hypothèse

d’un modèle de mélange. Cette approche est limitée par le fait qu’elle propose de fournir

uniquement un ensemble de deux clusterings alternatifs. Néanmoins, elle a l’avantage de permettre

l’obtention de clusterings de nombre de groupes différents tout en reposant sur une formalisation

solide et caractérisant l’ensemble des solutions comme des approximations d’estimateurs

de maximum de vraisemblance pénalisée par l’objectif de dissimilarité entre les clusterings.

Finalement, la contrepartie de la rigueur et de la solidité du formalisme est payée par le fait qu’il

n’est pas possible de choisir différents algorithmes pour produire les différents clusterings malgré

la possibilité de choisir des familles de lois du mélange différentes pour chaque clustering.

4.6 Contributions

4.6.1 Motivation

L’approche COBOC proposée s’inspire des méthodes d’ensemble de clusterings et de consensus

de clusterings présentées précédemment : CE et SAMARAH. Pour répondre à la problématique

du clustering multi-vues en exploitant les représentations disponibles des individus (ce qui

164 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

n’est pas réalisé dans les approches précédentes présentées dans ce chapitre), COBOC repose

sur l’approche ADAUZABOC présentée au chapitre précédent (cf. section 3.7.3). L’idée est d’appliquer

sur chaque vue le meta-algorithme ADAUZABOC, ce qui permet d’utiliser n’importe quel

objectif de clustering sous-jacent. La réponse au problème du clustering multi-vues, la réalisation

de l’hypothèse du consensus, est réalisée au moyen de la génération incrémentale d’un ensemble

de contraintes que devront respecter au mieux l’ensemble des algorithmes de clusterings locaux.

Ce mécanisme de génération incrémentale de contraintes est tiré d’un principe ayant fait ses

preuves en apprentissage semi-supervisé : le co-apprentissage.

co-apprentissage

L’algorithme de co-apprentissage [Blum and Mitchell, 1998] vise à construire deux classifieurs

à partir d’un jeu de donnée X décrit selon deux vues, et pour lequel on dispose d’une

faible quantité d’individus étiquettés. On pose alors X = L [ U avec jLj << jUj L est l’ensemble

des individus pour lesquels on dispose de l’information de classe et U est l’ensemble des

individus non étiquettés. L’idée de l’algorithme est alors de construire à partir de L un classifieur

dans chaque vue. Soit U0 _ U avec jU0j = u fixé, chaque classifieur est utilisé pour étiquetter les

exemples de U tout en leur associant une confiance. Les m+ exemples positifs et m􀀀 exemples

négatifs associés à une confiance maximale sont alors sélectionnés parmi les u exemples classifiés.

Ces exemples sont injectés parmi les individus étiquettés L, et m+ + m􀀀 individus xi 2 U

sont retirés aléatoirement et réinjectés dans U0.

construction incrémentale de contraintes

Le mécanisme de construction incrémentale des contraintes s’appuie directement sur ce principe

de co-apprentissage. Dans notre contexte, les exemples sont les paires d’individus, pour

lesquels les éléments devront être classés ensembles ou non. La terminologie des contraintes

must-link (ML) et cannot-link (CL) peut alors être employée pour décrire les exemples positifs

et négatifs respectivement. L’approche COBOC va alors générer à chaque étape un ensemble de

contraintes parmi les plus «évidentes», i.e. associées à une plus grande confiance, construisant

ainsi l’équivalent de l’ensemble L du co-apprentissage. Les nouvelles contraintes sélectionnées

à chaque étape sont choisies parmi U = X2 n L. Un ensemble final L de paires ML ou CL

jugé satisfaisant sert alors de guide aux algorithmes de clusterings locaux qui cherchent dans

chaque vue une partition de X dans un contexte alors semi-supervisé, les contraintes constituant

les exemples de L devant être respectées. Les différentes hypothèses de départ émisent

mènent à deux variantes de ce mécanisme de co-apprentissage pour le clustering dans un cadre

de multiplicité :

COBOC : les partitions locales proches peuvent être obtenues selon :

COBOC consensus, la génération d’un ensemble L de paires d’individus, unique et commun

à toutes les vues, permettant aux différents algorithmes de clusterings d’obtenir

des résultats proches en respectant les mêmes contraintes ;

COBOC complémentaire, la génération d’une collection fL(r)gr2[1::nr] d’ensembles de paires

d’individus, différents pour toutes les vues, permettant aux algorithmes de clusterings

d’obtenir des résultats proches. Cette recherche de consensus est atteinte en s’assurant

que si deux individus sont regroupés (respectivement séparés) par tous les algorithmes

de clustering locaux sauf un, alors on doit parmettre à celui-ci de parvenir également à

regrouper (respectivement séparer) ces mêmes individus.

ALTERBOC : L’obtention de partitions locales différentes peut être obtenue selon :

ALTERBOC global, la génération d’une collection fLgr2[1::nr] d’ensembles de paires d’individus,

différents pour toutes les vues, permettant aux algorithmes de clusterings d’obte4.6.

CONTRIBUTIONS 165

nir des résultats différents en s’assurant que chaque algorithme ne puisse respecter des

contraintes que les autres algorithmes parviennent à satisfaire ;

ALTERBOC complémentaire, un cas particulier du mécanisme précédent en ne considérant

que les contraintes que les premiers algorithmes satisfont par eux même localement. À

titre d’exemple, si on a dans l’esprit : Link(r)(xi; xj) ^ Link(r)(xi; xj) 8r 6= r, alors il

est cohérent de considérer ultérieurement (xi; xj) 2 CL(r) afin de contraindre fA(r)g à

réaliser un clustering différent de ceux obtenus par les A(r).

Dans la suite sont déclinées les deux variantes et leurs heuristiques correspondantes, en

reprennant une notation plus proche de celle du chapitre 3. Les deux approches se basent sur

ADAUZABOC pour faire en sorte qu’un algorithme de clustering quelconque satisfasse localement

un ensemble de contraintes données.

Objectif

Soient ML(r) et CL(r) 8r 2 [1::nr] la recherche d’une représentation optimale facilitant le

respect des contraintes par A(r) est caractérisée pour rappel par X(r)_

= X(r)P(r)_ P_ =

fP(r)_

gr2[1::nr] est la solution optimale du problème suivant :

max

P

Xnr

r=1

Q(r)

COH(P(r)) =

Xnr

r=1

trace(P(r)>

X(r)>

X(r)P(r))

s:t: P(r)>

P(r) = Ids 8r 2 [1::nr]

d2

P(r)(xi; xj) _ _(r)

ij 8(xi; xj) 2 ML(r)

d2

P(r)(xi; xj) _ _(r)

ij 8(xi; xj) 2 CL(r)

_(r)

ij _ 0 8r 2 [1::nr]; 8(xi; xj) 2 ML(r) [ CL(r)

(4.27)

La différenciation entre les deux approches COBOC et ALTERBOC se fait via la génération des

contraintes. COBOC et ALTERBOC sont des instanciations de la plateforme () utilisant différentes

heuristiques qui sont autant de propositions pour le développement d’approches génériques de

types multi-vues ou alternatives. Dans ce cadre, les contributions présentées par la suite sont

essentiellement algorithmiques et prennent la forme de stratégies dont on espère a priori qu’elles

amélioreront la qualité des clusterings produits.

L’idée est de partir des ensembles ML(r) = CL(r) = ; et d’alterner deux étapes qui sont :

– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)

fixés ;

– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus.

La recherche d’un clustering local optimal étant indépendante de la recherche des clusterings

dans les autres vues, cette étape est réalisée indépendamment dans chaque vue et correspond

exactement à l’algorithme ADAUZABOC détaillé en section 3.7.3.

La seconde étape consiste à augmenter ML(r) et CL(r). Cette augmentation est réalisée en

sélectionnant à partir de l’ensemble des paires d’individus non présentes dans les contraintes,

un ensemble de m paires candidates pour chaque clustering local. Les paires candidates sont

associées à une confiance indiquant leur prédisposition à être une contrainte ML ou CL.

Soit H+(r) et H􀀀(r) les matrices des hypothèses de clustering dans la vue r définies par :

H+(r)

ij =

_

1 si i 6= j et Link(r)(xi; xj)

0 sinon

166 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

H􀀀(r)

ij =

(

􀀀1 si i 6= j et Link

(r)

(xi; xj)

0 sinon

La matrice complète des hypothèses de clustering est alors donnée par :

H(r) = H+(r) + Idn + H􀀀(r) (4.28)

En particulier les paires d’individus (xi; xi) 2 X sont toujours classées ensembles par A(r),

ainsi H(r)

ii = 1. Les valeurs positives (respectivement négatives) de la matrice des hypothèses de

clustering H(r) sont alors les paires d’individus correspondant aux exemples étiquettés positivement

(respectivement négativement), dans la terminologie du co-apprentissage.

Soit D(r) la matrice des distances entre individus dans le dernier sous-espace optimal de la

vue r définie par :

D(r)

ij = d2

P(r)_(xi; xj) (4.29)

On pose D(r)

ijmax

et D(r)

ijmin

tels que :

D(r)

ijmax

=

8><

>:

max

(xk;xl)2X2

_

H+(r)

kl D(r)

kl

_

si i 6= j et Link(r)(xi; xj)

max

(xk;xl)2X2

_

H􀀀(r)

kl D(r)

kl

_

si i 6= j et Link

(r)

(xi; xj)

D(r)

ijmin

=

8><

>:

min

(xk;xl)2X2

_

H+(r)

kl D(r)

kl

_

si i 6= j et Link(r)(xi; xj)

min

(xk;xl)2X2

_

H􀀀(r)

kl D(r)

kl

_

si i 6= j et Link

(r)

(xi; xj)

On pose _(r)

ij la confiance associée à la paire (xi; xj) dans la vue r qui s’exprime par :

_(r)

ij =

H(r)

ij (D(r)

ijmax

􀀀 D(r)

ij )

D(r)

ijmax

􀀀 D(r)

ijmin

(4.30)

Cette confiance est à la base des différentes déclinaisons de COBOC et ALTERBOC. Les hypothèses

considérées pour les approches proposées sont alors les suivantes :

– plus une confiance _(r)

ij > 0 est élevée, plus on a la certitude d’avoir Link(r)(xi; xj) ;

– plus une confiance _(r)

ij < 0 est faible, plus on a la certitude d’avoir Link

(r)

(xi; xj).

En raisonnant en terme de distance, et non en terme de confiance, ces hypothèses reflètent

les résultats obtenus à l’issue des travaux sur ADAUZABOC au chapitre précédent (cf. section

3.7.3).

4.6.2 COBOC : boosting collectif et collaboratif pour la recherche de consensus

L’approche générique de recherche de consensus entre plusieurs vues d’un même jeu de

données, ou entre plusieurs algorithmes de clusterings appliqués à un jeu de donnée mono-vue

se décline en deux heuristiques :

COBOC consensus, pour laquelle chaque vue participe à la construction d’un même ensemble

de contraintes que tous les algorithmes de clustering devront satisfaire au mieux ;

COBOC complémentaire, pour laquelle chaque vue r 6= r participe à la construction d’un

même ensemble de contraintes pour r que l’algorithme A(r) ne parvient pas par lui même

à satisfaire a priori.

4.6. CONTRIBUTIONS 167

COBOC consensus

On se place dans le cadre où chaque vue participe à la construction du même ensemble de

contraintes. Ainsi pour simplifier on notera ML = ML(r) et CL = CL(r) 8r 2 [1::nr]. L’idée est

de partir des ensembles ML = CL = ; et d’alterner deux étapes qui sont :

– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML et CL fixés ;

– l’augmentation de ML et CL selon les clusterings locaux obtenus et la stratégie de recherche

de consensus, notée 􀀀, choisie.

La première étape est le coeur du chapitre précédent et ne sera pas détaillée davantage, elle

consiste simplement à résoudre le problème (4.27).

Concernant la seconde étape, partant du calcul de la confiance _(r)

ij (4.30), on calcul une

confiance globale pour chaque paire d’individus comme une moyenne des confiances locales :

_ij =

1

nr

Xnr

r=1

_(r)

ij (4.31)

Une valeur positive et élevée de _ij indique que xi et xj ont majoritairement été classés

ensemble par les algorithmes A(r) et que ceux-ci sont dans chaque vue plus proches entre eux

que des autres individus. Dans ce cas on est davantage certain que xi et xj devraient appartenir

à un même groupe. Cette confiance permet de définir _ML et _CL comme l’ensemble des paires

d’individus candidates :

_ML = f(xi; xj) 2 X2 n (ML[ CL) j _ij > 0g (4.32)

_CL = f(xi; xj) 2 X2 n (ML[ CL) j _ij < 0g (4.33)

Ces ensembles sont munis de la relation d’ordre _ définie par :

(xi; xj) _ (xi0 ; xj0) , j_ij j > j_i0j0 j

qui permet de former une liste ordonnée par la confiance des éléments de _ML et _CL.

La génération des nouvelles contraintes 􀀀(_) peut alors être obtenue selon trois opérateurs

(ou stratégies) que sont :

– la sélection aléatoire 􀀀Random qui consiste à tirer m+ et m􀀀 paires d’individus aléatoirement

parmi _ML et _CL respectivement ;

– la sélection confiante 􀀀Max qui consiste à sélectionner les m+ et m􀀀 premières paires

d’individus des listes ordonnées associées à _ML et _CL respectivement ;

– le sélection incertaine 􀀀Min qui consiste à sélectionner les m+ et m􀀀 dernières paires

d’individus des listes ordonnées associées à _ML et _CL respectivement.

Les règles d’augmentations sont alors définies par :

ML = ML[ 􀀀(_ML) (4.34)

CL = CL [ 􀀀(_CL) (4.35)

COBOC complémentaire

L’idée est de partir des ensembles ML(r) = CL(r) = ; et d’alterner deux étapes qui sont :

– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)

fixés ;

168 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Algorithme 34 COBOC consensus

ENTRÉES : X, fX(r)gr2[1::nr], nk, fA(r)gr2[1::nr], 􀀀, m+, m􀀀, tf

SORTIES : C = fC1; :::;Cnkg

1 : Initialiser CL = ML = ;

2 : Initialiser t = 0

3 : Appliquer ADAUZABOC sur X(r) avec A(r), CL et ML

4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]

5 : Calculer _ij selon (4.31), 8(xi; xj) 2 X2

6 : Augmenter ML et CL par (4.34) et (4.35)

7 : Si t < tf alors t = t + 1 et aller en 3

8 : C = V ote(fH(r);X_(r)gr2[1::nr])

– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus et la stratégie de

recherche de consensus 􀀀 choisie.

Partant du calcul de la confiance _(r)

ij (4.30), on calcul une confiance ~_(r)

ij comme moyenne

sur les vues r des confiances locales associées aux paires d’individus :

~_(r)

ij =

1

nr 􀀀 1

Xnr

r=1

r6=r

_(r)

ij (4.36)

Une valeur positive et élevée de ~_(r)

ij indique que xi et xj sont majoritairement classés ensemble

par les algorithmes A(r) 8r 2 [1::nr] ^ r 6= r et que ces individus sont pour chaque

vue autre que r, plus proches entre eux qu’aux autres individus. Dans ce cas on est davantage

convaincu que xi et xj devraient appartenir à un même groupe dans les autres vues. Dans ce

contexte complémentaire, l’idée est que si deux individus appartiennent à un même groupe

dans les vues r 6= r, et si ces individus sont séparés par A(r), alors il faut suggérer à A(r) de les

regrouper.

La confiance ~_ permet alors de définir pour chaque vue r, les ensembles de paires d’individus

candidates _(r)

ML et _(r)

CL :

_(r)

ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij > 0 ^ Link

(r)

(xi; xj)g (4.37)

_(r)

CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij < 0 ^ Link(r)(xi; xj)g (4.38)

Ces ensembles sont munis de la relation d’ordre _(r) définie par :

(xi; xj) _(r) (xi0 ; xj0) , j~_(r)

ij j > j~_(r)

i0j0 j

qui permet de former une liste ordonnée par la confiance des éléments de _(r)

ML et _(r)

CL.

La génération des nouvelles contraintes 􀀀(_) peut alors être obtenue selon les trois opérateurs

􀀀Random, 􀀀Max et 􀀀Min définis comme précédemment.

Les règles d’augmentations sont alors définies par :

ML(r) = ML(r) [ 􀀀(_(r)

ML) (4.39)

CL(r) = CL(r) [ 􀀀(_(r)

CL) (4.40)

4.6. CONTRIBUTIONS 169

Algorithme 35 COBOC complémentaire

ENTRÉES : X, fX(r)gr2[1::nr], n(r)

k , fA(r)gr2[1::nr], 􀀀, m+, m􀀀, tf

SORTIES : C = fC1; :::;Cnkg

1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]

2 : Initialiser t = 0

3 : Appliquer ADAUZABOC sur X(r) avec A(r), ML(r) et CL(r)

4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]

5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2

6 : Augmenter ML(r) et CL(r) par (4.39) et (4.40)

7 : Si t < tf alors t = t + 1 et aller en 3

8 : C = V ote(fH(r);X_(r)gr2[1::nr])

Construction de la partition unique.

Dans l’esprit des méthodes de clustering multi-vues auxquelles se confronte COBOC, un

unique clustering des individus est attendu. Dans ce contexte, une fusion finale est réalisée sous

la forme d’un vote à la majorité entre les différents clusterings de chaque vue. Ces clusterings

sont alors considérés comme des hypothèses qui peuvent être combinées de différentes façons.

À partir de l’ensemble fH(r)gr2[1::nr] des hypothèses de clustering sur les paires d’individus et

l’ensemble fX_(r)

r2[1::nr]g des représentations optimales locales de X obtenues par ADAUZABOC,

un clustering C final peut être obtenu par :

1. La construction d’une matrice de similarité K1 à partir des hypothèses de clustering :

K1 =

Xnr

r=1

~H

(r) (4.41)

~H (r) = 1

2 (H(r) + 1), ainsi H(r)

ij 2 f0; 1g. K1 est ensuite utilisé comme matrice de

similarité, dans un algorithme de clustering classique mono-vue adapté (e.g. AGNES, KKM,

KFKM, SC, etc.).

2. Selon le même principe de vote, mais en utilisant davantage les représentations finales optimales

des individus en recalculant les confiances _ij pour chaque paire (xi; xj). Soit _min

quantité négative correspondante à la plus faible des confiances sur les paires d’individus :

_min = min

(xi;xj )2X2

_ij

et _max tel que :

_max = max

(xi;xj )2X2

(_ij 􀀀 _min)

un noyau normalisé peut alors être construit à partir de _ par :

K2ij =

_ij 􀀀 _min

_max

(4.42)

_min < 0 étant la plus petite valeur de confiance, le numérateur permet de translater les

confiances vers des valeurs positives. Le dénominateur permet alors de ramener la valeur maximale

de confiance translatée à 1. K2ij peut donc être vue comme une mesure de similarité

normalisée entre 0 et 1.

Discussion

170 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Les deux approches COBOC consensus et COBOC complémentaire proposées reposent sur la

même procédure pour atteindre dans chaque vue r une représentation optimale et un clustering

optimal dans cette représentation, respectant au mieux les ensembles de contraintes données

ML(r) et CL(r). Chaque vue, en respectant ses contraintes, doit aller vers une solution de clustering

proche de celle des autres vues, par construction. Le comportement de ces approches

heuristiques sera présenté plus en détail dans la section d’évaluation. Le même genre de mécanisme

peut être proposé pour la recherche de plusieurs partitions alternatives d’un ensemble

d’individus X, ce qui est l’objet de la prochaine section.

4.6.3 ALTERBOC : boosting collectif et collaboratif pour la recherche

d’alternatives

ALTERBOC est une approche heuristique de découverte de clusterings alternatifs dont le mécanisme

est calqué sur celui de COBOC. Les différentes heuristiques proposées pour l’obtention

d’alternatives sont inspirées des travaux de [Davidson and Qi, 2008] pour ADFT (cf. section

4.5.2). Rappellons qu’ADAUZABOC peut fournir pour chaque alternative, le clustering C(r) fondé

sur la fonction de distance P(r)P(r)> apprise. Cette distance étant apprise par l’intermédiaire des

contraintes, il est alors envisageable de contrôler, par la construction de contraintes appropriées,

la recherche de sous-espaces différents, induisant, par hypothèse, des clusterings différents. Le

simple fait que les clusterings obtenus localement soient optimaux, relativement aux distances

apprises, suggère un mécanisme d’obtention de clusterings alternatifs, au sens de la problématique

de l’alternative clustering.

L’approche générique de recherche de clusterings alternatifs d’un même jeu de données se

décline également en deux heuristiques :

ALTERBOC global, pour laquelle chaque vue ou alternative r 6= r participe à la construction

d’un même ensemble de contraintes pour r quels que soient les résultats de A(r) a priori sur

ces contraintes ;

ALTERBOC complémentaire, pour laquelle chaque alternative r 6= r participe à la construction

d’un même ensemble de contraintes pour r que l’algorithme A(r) ne parvient pas à

satisfaire a priori.

ALTERBOC global

À partir d’une représentation matricielle X de l’ensemble d’individu X, l’idée est de construire

des ensembles ML(r) et CL(r) permettant à un algorithme A(r) d’obtenir un des nr clusterings

alternatifs. Soient ML(r) = CL(r) = ;, l’approche consiste à alterner deux étapes qui sont :

– la recherche des clusterings optimaux locaux selon ADAUZABOC, pour ML(r) et CL(r)

fixés ;

– l’augmentation de ML(r) et CL(r) selon les clusterings locaux obtenus et la stratégie de

recherche d’alternatives 􀀀 choisie.

La recherche d’un clustering local optimal est toujours réalisée grâce à l’algorithme ADAUZABOC

détaillé en section 3.7.3.

Soit la confiance ~_(r)

ij (4.36). Une valeur positive et élevée de ~_(r)

ij indique que xi et xj ont

majoritairement été classés ensemble par les algorithmes A(r) (r 6= r) et que ceux ci sont pour

chaque vue autre que r, plus proches entre eux qu’aux autres individus. L’idée dans le cadre de

la recherche d’un clustering C(r) alternatif à fC(r)g est de s’assurer que A(r) ne regroupe pas xi

et xj . Ainsi, (xi; xj) doit correspondre à une contrainte CL.

4.6. CONTRIBUTIONS 171

La confiance (4.36) permet de définir pour chaque vue r, les ensembles de paires d’individus

candidates _(r)

ML et _(r)

CL :

_(r)

ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij < 0g (4.43)

_(r)

CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij > 0g (4.44)

Ces ensembles sont munis de la relation d’ordre _(r) défini par :

(xi; xj) _(r) (xi0 ; xj0) , j~_(r)

ij j > j~_(r)

i0j0 j

qui permet de former une liste ordonnée par la confiance des éléments de _(r)

ML et _(r)

CL.

La génération des nouvelles contraintes 􀀀(_) peut alors être obtenue selon trois opérateurs

(ou stratégies) que sont :

– la sélection aléatoire 􀀀Random qui consiste à tirer m+ et m􀀀 paires d’individus aléatoirement

parmi _(r)

ML et _(r)

CL respectivement ;

– la sélection confiante 􀀀Max qui consiste à sélectionner les m+ et m􀀀 premières paires

d’individus des listes ordonnées associées à _(r)

ML et _(r)

CL respectivement ;

– le sélection incertaine 􀀀Min qui consiste à sélectionner les m+ et m􀀀 dernières paires

d’individus des listes ordonnées associées à _(r)

ML et _(r)

CL respectivement.

et les règles d’augmentations sont définies par :

ML(r) = ML(r) [ 􀀀(_(r)

ML) (4.45)

CL(r) = CL(r) [ 􀀀(_(r)

CL) (4.46)

Algorithme 36 ALTERBOC global

ENTRÉES : X, fA(r)gr2[1::nr], 􀀀, m+, m􀀀, tf

SORTIES : _ = fC(1); :::;C(nr)g

1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]

2 : Initialiser t = 0

3 : Appliquer ADAUZABOC sur X avec A(r), ML(r) et CL(r) 8r 2 [1::nr]

4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]

5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2

6 : Augmenter ML(r) et CL(r) par (4.45) et (4.46)

7 : Si t < tf alors t = t + 1 et aller en 3

8 : C(r) = Application de ADAUZABOC sur X avec A(r), 8r 2 [1::nr]

ALTERBOC complémentaire

L’heuristique complémentaire est essentiellement la même que la précédente, si ce n’est dans

la construction explicite des ensembles de paires d’individus candidates _(r)

ML et _(r)

CL :

_(r)

ML = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij < 0 ^ Link

(r)

(xi; xj)g

_(r)

CL = f(xi; xj) 2 X2 n (ML(r) [ CL(r)) j ~_(r)

ij > 0 ^ Link(r)(xi; xj)g

munis de la même relation d’ordre _(r) permettant de former les listes ordonnées par la confiance

des éléments de _(r)

ML et _(r)

CL. Intuitivement, un bon exemple de paire candidate pour être une

172 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

contrainte (xi; xj) 2 ML(r) est un couple séparé dans les alternatives r et aussi dans r. Ainsi

une façon de forcer les algorithmes de clustering à se comporter différemment est d’insister pour

que A(r) regroupe xi et xj .

La génération des nouvelles contraintes est également réalisée au choix par 􀀀Random, 􀀀Max

ou 􀀀Min. Les règles d’augmentation sont également inchangées :

ML(r) = ML(r) [ 􀀀(_(r)

ML) (4.47)

CL(r) = CL(r) [ 􀀀(_(r)

CL) (4.48)

Algorithme 37 ALTERBOC complémentaire

ENTRÉES : X, fA(r)gr2[1::nr], 􀀀, m+, m􀀀, tf

SORTIES : _ = fC(1); :::;C(nr)g

1 : Initialiser CL(r) = ML(r) = ;, 8r 2 [1::nr]

2 : Initialiser t = 0

3 : Appliquer ADAUZABOC sur X avec A(r), ML(r) et CL(r) 8r 2 [1::nr]

4 : Déterminer H(r) selon (4.28), 8r 2 [1::nr]

5 : Calculer ~_ij selon (4.36), 8(xi; xj) 2 X2

6 : Augmenter ML(r) et CL(r) par (4.47) et (4.48)

7 : Si t < tf alors t = t + 1 et aller en 3

8 : C(r) = Application de ADAUZABOC sur X avec A(r), 8r 2 [1::nr]

Discussion

Les approches ALTERBOC global et ALTERBOC complémentaire proposent d’atteindre un ensemble

de représentations optimales associées chacunes à un clustering optimal, respectant au

mieux les ensembles de contraintes données ML(r) et CL(r). Les contraintes sont construites

de sorte à rechercher une divergence entre les alternatives. Les sous-espaces de représentation

obtenus doivent alors être distincts et les clusterings associés doivent être des optima différents.

Tout comme les approches de clustering alternatifs présentées précédemment, l’intuition de

l’efficacité de la recherche d’alternatives se compromet, à nombre d’alternatives augmentant.

En effet, il est plus facile d’envisager l’obtention de partitions différentes dans le cas de deux

alternatives que pour un nombre plus élevé. Par exemple, dès trois alternatives, soient C(1),

C(2) et C(3) trois partitions d’un même jeu de données obtenues par A(1), A(2) et A(3). On

ne peut dans ce contexte garantir une réelle différence entre les alternatives car la décision

finale associée à chaque paire d’individus est binaire (regroupée ou séparée). Parmi les trois

décideurs A(1), A(2), A(3), si deux d’entre eux permettent d’obtenir des partitions différentes,

alors le troisième aura nécessairement une partie commune avec au moins l’un d’entre eux,

voire même les deux. La tâche est alors de contrôler dans quelle mesure le troisième algorithme

aura des parties communes, mais réduites, avec les deux autres.

4.7 Évaluation

Les approches COBOC et ALTERBOC ont été testées expérimentalement en suivant différentes

procédures d’évaluation internes et externes. Les jeux de données qui ont servi de base de test

sont tirés des chapitres précédents.

L’approche COBOC a été testée dans deux contextes applicatifs différents :

4.7. ÉVALUATION 173

– le contexte multi-vues (cf. chapitre 2) où l’on cherche une partition consensus de l’ensemble

X où chaque individu est décrit simultanément par plusieurs représentations. Ce

cadre applicatif est celui des approches de clustering multi-vues ;

– le contexte de la combinaison de modèles, où l’on applique plusieurs algorithmes de clustering

différents sur un jeu de donnée mono-vue. Ce cadre applicatif est typique des développement

des approches de clustering d’ensemble, de clustering collaboratif ou de clustering

alternatif.

L’application au contexte multi-vues est observée sur le jeu de données mfeat (cf. section

2.5.1), et l’application au contexte de la combinaison de modèles pour la recherche de consensus

ou d’alternatives est observée sur les jeux de données Iris, parkinson et Wine (cf. section 3.8.1).

4.7.1 Protocole expérimental

Dans un premier temps, la recherche d’une solution consensus par COBOC et de solutions

alternatives par ALTERBOC sont caractérisées en termes d’évaluation interne, en observant l’évolution

de la moyenne des informations mutuelles entre les différents clusterings locaux (avant

l’étape de vote final pour COBOC) :

AvgNMI(_) =

1

nr

Xnr

r=1

NMI(C;C(r)) ; _ = fC(1); : : : ;C(nr)g

Dans un second temps, la performance des différentes approches est mesurée par une évaluation

externe (% F-mesure, AvgEnt et NMI). Cette évaluation est réalisée selon plusieurs objectifs :

– observer l’apport des approches collaboratives sur chaque algorithme de clustering A(r)

(avant la fusion finale pour COBOC) selon la stratégie de collaboration 􀀀 employée et au

regard des résultats obtenus par chacun de ces algorithmes sans procédure de collaboration

;

– observer l’apport des solutions obtenues par COBOC et de la fusion finale par calcul de K1

et K2, et comparée à une solution de clustering multi-vues : COFKM;

– observer l’apport des solutions locales proches obtenues par (COBOC) ou alternatives obtenues

par (ALTERBOC) comme prémisse à l’application de COFKM ou COKFKM. Cette

observation a pour but d’observer l’apport de la diversité parmi les différents clusterings

sur les résultats des approches multi-vues : COFKM et COKFKM.

Les résultats obtenus correspondent à une moyenne de 20 exécutions pour Iris, 10 exécutions

pour wine et parkinson et 5 exécutions pour mfeat. L’augmentation du nombre de contraintes est

paramétré de la façon suivante :

– le nombre maximum d’augmentations de contraintes est fixé à 10 ;

– à chaque itération de COBOC ou ALTERBOC, i.e. à chaque augmentation du nombre de

contraintes, m = p% _ (n(n􀀀1)

2nk

) contraintes sont générées, où p% est un pourcentage prédéfini.

le terme m correspond à un pourcentage de nombre de contraintes ML pouvant

être générées, sous hypothèse de groupes de tailles homogènes. Dans les expériences,

p% = 1, ainsi le nombre total de contraintes générées est de 1

10nk

_ le nombre de paires

d’individus différentes.

Lorsqu’ils sont utilisés, les algorithmes de clustering sont paramétrés de manière classique. Si

le nombre de groupes est nécessaire, celui-ci correspond au nombre de classes du jeu de données

correspondant. Les paramètres de flou éventuels nécessaires sont tous fixés à _ = 1:25.

Les approches ADAUZABOC encapsulant les algorithmes précédents sont paramétrées par

le choix heuristique de la dimensionnalité du sous-espace à calculer à chaque étape : s, correspondant

au nombre de valeurs propres positives de la matrice à diagonaliser. L’initialisation

174 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

de l’algorithme boîte noire employé est invariante pour une recherche de sous-espace optimal

donnée, mais différente entre les vues ou alternatives.

4.7.2 Évaluation interne

Stratégie Random

Stratégie Minimum

Stratégie Maximum

FIGURE 4.2 — Légende pour l’évaluation

interne de COBOC et ALTERBOC.

Évaluation interne de COBOC

L’évaluation interne de COBOC consiste essentiellement à observer l’impact de la recherche

heuristique de collaboration entre les algorithmes locaux dans les contextes de la combinaison

de modèles et du clustering multi-vues. L’objectif, malgré un faible contrôle sur le comportement

des différents algorithmes, est d’obtenir une augmentation de la valeur d’information mutuelle

normalisée moyenne entre les résultats de ces algorithmes.

Évaluation interne de COBOC dans le cadre de la combinaison de modèle. Les heuristiques

consensus et complémentaire ont été observées sur une exécution dans le cadre de la

combinaison de modèles non supervisés (cf. figure 4.3 et 4.4).

Selon l’heuristique consensus (figure 4.3), la stratégie maximum (􀀀Max) n’apporte pas de

résultats significatifs, dans la mesure où les paires d’individus de _ML (respectivement _CL) sélectionnées

comme étant les plus confiantes sont déjà regroupées (respectivement séparées) par

tous les algorithmes locaux. Néanmoins il existe certaines paires d’individus pour lesquelles ces

observations ne sont pas vraies. Il en résulte une modification mineure de la mesure de similarité

(NMI) entre les résultats des algorithmes locaux qui n’est favorable que dans les cas présentés

de recherche de consensus entre quatre algorithmes pour wine, et six algorithmes pour Iris.

Néanmoins, cette observation est limitée à une exécution, pour une configuration particulière

de l’algorithme COBOC, et un choix particulier des algorithmes locaux. Le résultat positif qui

en ressort est qu’il est possible d’atteindre une solution offrant un meilleur consensus entre les

algorithmes locaux. La stratégie minimum (􀀀Min) n’est efficace dans la recherche de consensus

que pour le jeu de donnée Parkinson, pour lequel les algorithmes locaux utilisés se comporte

vraiment différemment, et les résultats de base obtenus sont très dissimilaires. Elle est donc

globalement peu concluente dans ce contexte. La stratégie random a un comportement plus

instable. En général, la tendance est plutôt négative, à nombre d’échange de contraintes augmentant.

Néanmoins, on observe la possibilité d’atteindre un meilleur consensus que la stratégie

maximum, ce qui est un résultat très positif. Cependant l’identification de tels cas particuliers

n’a pas été l’objet de cette étude.

Les observations issues des expériences sur l’heuristique complémentaire (figure 4.4) corroborent

les observations précédentes au sujet de l’inefficacité de la stratégie minimum (malgré

une observation positive à faible nombre d’échanges de contraintes pour wine avec six algorithmes

locaux) et l’atteignabilité de très bonnes solutions de consensus par la stratégie random.

En revanche, dans ce contexte, la stratégie maximum est plus instable, et tend davantage à

4.7. ÉVALUATION 175

s’éloigner des solutions de clusterings de base. Cette observation n’est pas souvent positive, si ce

n’est pour le jeu de donnée Parkinson pour lequel la stratégie maximum n’avait aucun impact

sur l’heuristique COBOC consensus.

Pour dresser le bilan des différentes observations de COBOC pour la combinaison de modèles,

la stratégie random permet d’obtenir souvent le meilleur consensus, mais les causes de

cette observation n’ont pu être déterminées. La stratégie maximum permet parfois d’obtenir un

meilleur consensus mais celui-ci est limité. Enfin la stratégie minimum est peu pertinente dans

ce contexte.

2 4 6 8 10

0.40 0.45 0.50 0.55 0.60 0.65 0.70

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.25 0.30 0.35 0.40 0.45

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.2 0.3 0.4 0.5 0.6

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.3 0.4 0.5 0.6 0.7

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.20 0.25 0.30 0.35 0.40

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.2 0.3 0.4 0.5 0.6

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.3 0.4 0.5 0.6 0.7 0.8

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.2 0.4 0.6 0.8

CoBoC consensus

Nb. Itérations

AvgNMI

FIGURE 4.3 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique consensus. Dans

l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux

algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à

l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.

176 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

2 4 6 8 10

0.3 0.4 0.5 0.6 0.7

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.25 0.30 0.35 0.40

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.10 0.15 0.20 0.25 0.30 0.35

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.0 0.2 0.4 0.6

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7

CoBoC complémentaire

Nb. Itérations

AvgNMI

FIGURE 4.4 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.

Dans l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux

algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à

l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.

Évaluation interne de COBOC dans le cadre multi-vues. Les heuristiques consensus et complémentaire

ont été observées sur une exécution dans le cadre de la recherche de consensus

dans un contexte multi-vues sur le jeu de donnée mfeat (cf. figure 4.5 et 4.6).

Les résultats observés pour l’heuristique COBOC consensus (figure 4.5) sont semblables aux

observations du contexte de la combinaison de modèles. De manière flagrante, les clusterings

obtenus par la stratégie maximum peinent à s’éloigner des clusterings de base, pour la simple

raison que les paires d’individus sélectionnées sont déja regroupées de la même manière par

les algorithmes de clustering dans toutes les vues. La stratégie minimum permet d’atteindre

brièvement une solution consensus pour un faible nombre d’échanges de contraintes, mais tend

4.7. ÉVALUATION 177

davantage à produire des clusterings dissimilaires. Finalement, l’heuristique la plus pertinente

sur l’exemple présenté est bien la stratégie random. Néanmoins l’étude réalisée ne permet pas

d’identifier pourquoi c’est le cas.

Les observations issues des expériences sur l’heuristique complémentaire (figure 4.6) sont

ici sensiblement différentes, si ce n’est pour l’inefficacité de la stratégie minimum. La stratégie

random ne permet pas d’atteindre un consensus. En revanche, la stratégie maximum, elle, réussit

à l’atteindre.

On ne peut dégager la meilleure des approches à considérer dans le contexte multi-vues,

puisque la stratégie aléatoire pour l’heuristique COBOC consensus atteint les mêmes performances

en terme d’information mutuelle normalisée que la stratégie maximum pour l’heuristique

COBOC complémentaire. De plus, aucune similitude analytique ne peut être mise en évidence

entre ces deux approches. Globalement, concernant la stratégie minimum, on constate

que si celle-ci est intuitive, puisqu’elle permet d’aider globalement la décision sur les paires d’individus

pour lesquels les différents algorithmes locaux peinent à décider, elle n’est néanmoins

presque jamais efficace.

2 4 6 8 10

0.30 0.35 0.40 0.45

CoBoC consensus

Nb. Itérations

AvgNMI

2 4 6 8 10

0.25 0.30 0.35 0.40 0.45

CoBoC consensus

Nb. Itérations

AvgNMI

FIGURE 4.5 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique consensus. Dans

l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des algorithmes

différents pour chaque vue.

178 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

2 4 6 8 10

0.10 0.15 0.20 0.25 0.30 0.35 0.40

CoBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.15 0.25 0.35 0.45

CoBoC complémentaire

Nb. Itérations

AvgNMI

FIGURE 4.6 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire.

Dans l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des

algorithmes différents pour chaque vue.

4.7. ÉVALUATION 179

Évaluation interne de ALTERBOC

L’évaluation interne d’ALTERBOC vise, contrairement à COBOC, à observer une diminution

de la valeur d’information mutuelle normalisée moyenne entre les résultats des algorithmes

locaux.

Évaluation interne de ALTERBOC dans le cadre de la multiplicité des modèles. Les heuristiques

consensus et complémentaire ont été observées sur une exécution dans le cadre de la

combinaison de modèles (cf. figure 4.7 et 4.8).

L’heuristique ALTERBOC global vise à encourager les algorithmes locaux à rechercher des

solutions de clusterings différentes. Selon cet objectif, les trois stratégies (minimum, maximum

et random) parviennent à atteindre de bonnes solutions. Cependant, la stratégie random permet

d’obtenir la meilleure tendance. Les performances des stratégies minimum et maximum sont

interverties selon les jeux de données. Enfin, dans le cas général, les clusterings alternatifs sont

obtenus plutôt pour un faible nombre d’échanges de contraintes. Un trop grand nombre de

contraintes échangées tend à reproduire une forme de consensus faible.

L’heuristique ALTERBOC complémentaire permet également d’atteindre des solutions alternatives

et les stratégies associées ont un comportement semblable à celui de la précédente heuristique.

On remarque également le danger de réaliser un nombre trop élevé d’échanges de

contraintes, notamment dans le cas du jeu de données Parkinson avec six algorithmes.

On remarque globalement que l’on peut atteindre différentes formes d’alternatives avec

toutes les stratégies. En revanche, les expériences montrent qu’il est recommandé dans ce contexte

de limiter le nombre d’échanges de contraintes entre les vues, sous peine de finir par atteindre

une solution consensus de faible qualité.

Évaluation interne de ALTERBOC dans le cadre multi-vues. Les heuristiques consensus et

complémentaire ont été observées sur une exécution dans le cadre de la recherche de clusterings

alternatifs dans un contexte de multiplicité des vues sur le jeu de donnée mfeat (cf. figure 4.9 et

4.10).

Les heuristiques ALTERBOC global et ALTERBOC complémentaire satisfont toutes les deux

l’objectif, quelles que soient les stratégies employées. L’obtention de solutions de clusterings

réellement différentes est cependant plus nette pour l’heuristique complémentaire. Pour l’heuristique

consensus, on constate qu’encore une fois la stratégie random est la meilleure pour

atteindre l’objectif, alors que la stratégie minimum atteint un meilleur ensemble de clusterings

que la stratégie maximum.

180 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

2 4 6 8 10

0.2 0.3 0.4 0.5 0.6 0.7

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.05 0.10 0.15 0.20 0.25 0.30 0.35

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.05 0.10 0.15 0.20 0.25

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.0 0.2 0.4 0.6 0.8

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.00 0.05 0.10 0.15 0.20 0.25 0.30

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 AlterBoC global

Nb. Itérations

AvgNMI

FIGURE 4.7 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique global. Dans

l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux

algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à

l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.

4.7. ÉVALUATION 181

2 4 6 8 10

0.2 0.3 0.4 0.5 0.6 0.7

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.05 0.10 0.15 0.20 0.25

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.1 0.2 0.3 0.4 0.5 0.6 0.7

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.05 0.10 0.15 0.20 0.25 0.30 0.35

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10 0.1 0.2 0.3 0.4 0.5

AlterBoC complémentaire

Nb. Itérations AvgNMI

2 4 6 8 10

0.0 0.2 0.4 0.6 0.8

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 0.6

AlterBoC complémentaire

Nb. Itérations AvgNMI

2 4 6 8 10

0.0 0.1 0.2 0.3 0.4 0.5 0.6

AlterBoC complémentaire

Nb. Itérations

AvgNMI

FIGURE 4.8 — Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.

Dans l’ordre, les données iris, parkinson et wine. Les trois lignes correspondent (1) à l’application de deux

algorithmes : KM et CLINK, (2) à l’application de quatre algorithmes : KM, SC, SLINK et CLINK, (3) à

l’application de six algorithmes : KM, FKM, SC, SLINK, ALINK et CLINK.

182 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

2 4 6 8 10

0.10 0.15 0.20 0.25 0.30

AlterBoC global

Nb. Itérations

AvgNMI

2 4 6 8 10

0.10 0.15 0.20 0.25 0.30 0.35

AlterBoC global

Nb. Itérations

AvgNMI

FIGURE 4.9 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique global. Dans l’ordre,

les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des algorithmes différents

pour chaque vue.

2 4 6 8 10

0.05 0.10 0.15 0.20 0.25 0.30

AlterBoC complémentaire

Nb. Itérations

AvgNMI

2 4 6 8 10

0.10 0.15 0.20 0.25 0.30 0.35

AlterBoC complémentaire

Nb. Itérations

AvgNMI

FIGURE 4.10 — Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire.

Dans l’ordre, les données mfeat avec le même algorithme pour toutes les six vues, et mfeat avec des

algorithmes différents pour chaque vue.

4.7. ÉVALUATION 183

4.7.3 Évaluation externe

Évaluation externe de COBOC pour la combinaison de modèles

L’apport des deux heuristiques COBOC consensus et COBOC complémentaire ainsi que des

stratégies associées (􀀀Random, 􀀀Min et 􀀀Max) est d’abord observé sur les données Iris, Wine et

parkinson. Le contexte est celui de la combinaison de modèles, où un ensemble d’algorithmes

de clustering est appliqué à un jeu de donnée classique mono-vue.

Apport de la collaboration à chaque algorithme pour la combinaison de modèles. Le tableau

4.1 servant de référence dans ce paragraphe montre les résultats obtenus sur les jeux

de données Iris, Parkinson et Wine avec utilisation de six algorithmes différents. L’objectif ici

est d’observer les performances des différentes approches de recherche de consensus par COBOC

relativement à ces résultats.

% F-mesure AvgEnt NMI

Iris : Algorithmes de clustering locaux

KM vue 0 73.39 _ 3.21 0.29 _ 0.03 0.65 _ 0.02

FKM vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0

SC vue 2 73.35 _ 0 0.25 _ 0 0.63 _ 0

SLINK vue 3 68.64 _ 0 0.31 _ 0 0.59 _ 0

ALINK vue 4 72.06 _ 0 0.27 _ 0 0.65 _ 0

CLINK vue 5 72.54 _ 0 0.26 _ 0 0.65 _ 0

Wine : Algorithmes de clustering locaux

KM vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01

FKM vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0

SC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0

SLINK vue 3 59.07 _ 0 0.51 _ 0 0.37 _ 0

ALINK vue 4 68.8 _ 0 0.42 _ 0 0.59 _ 0

CLINK vue 5 71.94 _ 0 0.26 _ 0 0.61 _ 0

Parkinson : Algorithmes de clustering locaux

KM vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02

FKM vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0

SC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0

SLINK vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0

ALINK vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0

CLINK vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0

TABLEAU 4.1 — Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC.

Les tableaux 4.2 à 4.7 montrent les résultats obtenus par chaque algorithme de clustering

localement, avec collaboration par COBOC.

On constate tout d’abord que dans la grande majorité des cas, l’heuristique COBOC consensus

associée à la stratégie 􀀀Max ne réalise aucun apport. Ceci est dû au fait que les couples

sélectionnés comme des contraintes ML (respectivement CL), de confiance maximale sont le

plus souvent les couples déjà regroupés ensemble (respectivement séparés) dans toutes les vues.

Cette observation par critère externe conforte les observations réalisées par l’évaluation interne.

Ce résultat n’est néanmoins pas toujours le cas, dans la mesure où quelques algorithmes de clustering

peuvent se comporter de façons différentes sur le regroupement de ces couples et être

ainsi corrigés pour se rapprocher des autres algorithmes. Dans ce contexte et avec la stratégie

􀀀Max, l’heuristique COBOC complémentaire se comporte alors de façon semblable.

184 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

La stratégie 􀀀Min, quelquesoit l’heuristique COBOC consensus ou COBOC complémentaire,

tend à rapprocher les performances des différents algorithmes employés. Cependant l’apport

ne semble intéressant que pour les jeux de données difficiles pour les algorithmes classiques

(parkinson). Autrement la performance est systématiquement dégradée. Cette observation est

intéressante puisqu’elle corrobore l’observation que, sur le jeu de donnée Parkinson, la stratégie

minimum permettait d’atteindre un consensus par COBOC (cf. section 4.7.2). Ceci donne une

indication sur la pertinence de rechercher un tel consensus pour améliorer la performance des

algorithmes de clusterings que l’on souhaite combiner.

La stratégie aléatoire 􀀀Random peut aider à améliorer certains algorithmes, notamment sur

Iris (Tab. 4.1) ou sur Wine (Tab. 4.4). Dans tous les cas, aucune tendance générale vers une amélioration

ne peut être dégagée à partir des heuristiques et stratégies proposées. Pris isoléments,

les algorithmes proposés, avec collaboration n’améliore pas en terme de mesure de performance

externe, les algorithmes classiques.

Iris % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 77.69 _ 9.91 0.25 _ 0.08 0.69 _ 0.12

COBOC vue 1 70.25 _ 17.24 0.41 _ 0.28 0.58 _ 0.25

COBOC vue 2 81.98 _ 6.2 0.22 _ 0.05 0.74 _ 0.07

COBOC vue 3 70.85 _ 4.28 0.3 _ 0.09 0.62 _ 0.08

COBOC vue 4 69.97 _ 5.82 0.33 _ 0.13 0.64 _ 0.09

COBOC vue 5 71.01 _ 8.21 0.3 _ 0.13 0.64 _ 0.11

Stratégie 􀀀Min

COBOC vue 0 54.27 _ 13.5 0.64 _ 0.25 0.37 _ 0.2

COBOC vue 1 55.86 _ 12.68 0.59 _ 0.23 0.4 _ 0.18

COBOC vue 2 57.51 _ 16.22 0.54 _ 0.25 0.4 _ 0.24

COBOC vue 3 62.66 _ 11.31 0.52 _ 0.3 0.46 _ 0.25

COBOC vue 4 64.95 _ 10.77 0.42 _ 0.22 0.52 _ 0.18

COBOC vue 5 59.05 _ 13.48 0.59 _ 0.33 0.42 _ 0.24

Stratégie 􀀀Max

COBOC vue 0 73.42 _ 3.22 0.29 _ 0.03 0.65 _ 0.02

COBOC vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0

COBOC vue 2 71.31 _ 0 0.29 _ 0 0.61 _ 0

COBOC vue 3 68.29 _ 0 0.32 _ 0 0.58 _ 0

COBOC vue 4 59.13 _ 0 0.39 _ 0 0.45 _ 0

COBOC vue 5 73.07 _ 0 0.32 _ 0 0.69 _ 0

TABLEAU 4.2 — Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC.

4.7. ÉVALUATION 185

Iris % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 74.39 _ 2.37 0.27 _ 0.05 0.65 _ 0.02

COBOC vue 1 72.09 _ 8.28 0.3 _ 0.12 0.61 _ 0.13

COBOC vue 2 68.95 _ 7.69 0.34 _ 0.14 0.56 _ 0.12

COBOC vue 3 68.47 _ 5.39 0.34 _ 0.1 0.57 _ 0.11

COBOC vue 4 67.46 _ 7.55 0.4 _ 0.21 0.58 _ 0.14

COBOC vue 5 66.37 _ 9.78 0.39 _ 0.18 0.56 _ 0.14

Stratégie 􀀀Min

COBOC vue 0 67.59 _ 6.12 0.34 _ 0.12 0.56 _ 0.1

COBOC vue 1 61.79 _ 13.94 0.47 _ 0.26 0.47 _ 0.2

COBOC vue 2 48.95 _ 11.06 0.75 _ 0.23 0.25 _ 0.18

COBOC vue 3 68.53 _ 5.35 0.36 _ 0.15 0.58 _ 0.11

COBOC vue 4 62.97 _ 9.26 0.42 _ 0.15 0.49 _ 0.17

COBOC vue 5 53.23 _ 11.02 0.7 _ 0.25 0.32 _ 0.2

Stratégie 􀀀Max

COBOC vue 0 72.59 _ 2.64 0.27 _ 0.03 0.64 _ 0.02

COBOC vue 1 74.52 _ 0 0.24 _ 0 0.66 _ 0

COBOC vue 2 71.31 _ 0 0.29 _ 0 0.61 _ 0

COBOC vue 3 68.29 _ 0 0.32 _ 0 0.58 _ 0

COBOC vue 4 60.35 _ 1 0.39 _ 0.01 0.44 _ 0

COBOC vue 5 74 _ 0.76 0.33 _ 0.01 0.66 _ 0.02

TABLEAU 4.3 —Évaluation externe de COBOC complémentaire sur Iris selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC.

Wine % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 77.67 _ 5.63 0.28 _ 0.06 0.68 _ 0.08

COBOC vue 1 78.36 _ 5.18 0.26 _ 0.02 0.68 _ 0.06

COBOC vue 2 77.93 _ 5.7 0.28 _ 0.04 0.67 _ 0.06

COBOC vue 3 58.56 _ 4.99 0.51 _ 0.21 0.4 _ 0.11

COBOC vue 4 69.47 _ 12.74 0.39 _ 0.22 0.57 _ 0.22

COBOC vue 5 71.27 _ 7.24 0.36 _ 0.18 0.62 _ 0.09

Stratégie 􀀀Min

COBOC vue 0 62.65 _ 4.56 0.52 _ 0.14 0.47 _ 0.06

COBOC vue 1 60.96 _ 3.48 0.47 _ 0.06 0.44 _ 0.04

COBOC vue 2 68.44 _ 6.81 0.41 _ 0.1 0.53 _ 0.08

COBOC vue 3 54.39 _ 4.97 0.77 _ 0.28 0.28 _ 0.1

COBOC vue 4 56.03 _ 6.36 0.76 _ 0.27 0.27 _ 0.19

COBOC vue 5 55.13 _ 7.34 0.59 _ 0.19 0.33 _ 0.12

Stratégie 􀀀Max

COBOC vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01

COBOC vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0

COBOC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0

COBOC vue 3 61.34 _ 0 0.4 _ 0 0.47 _ 0

COBOC vue 4 59.42 _ 0 0.56 _ 0 0.37 _ 0

COBOC vue 5 67.7 _ 0 0.42 _ 0 0.58 _ 0

TABLEAU 4.4 — Évaluation externe de COBOC consensus sur Wine selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC.

186 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Wine % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 75.12 _ 4.82 0.31 _ 0.04 0.64 _ 0.06

COBOC vue 1 77.24 _ 3.76 0.29 _ 0.03 0.66 _ 0.05

COBOC vue 2 78.78 _ 5.05 0.31 _ 0.05 0.68 _ 0.06

COBOC vue 3 59.39 _ 4.5 0.48 _ 0.19 0.42 _ 0.11

COBOC vue 4 68.25 _ 8.8 0.42 _ 0.21 0.54 _ 0.19

COBOC vue 5 73.06 _ 8.45 0.37 _ 0.18 0.63 _ 0.12

Stratégie 􀀀Min

COBOC vue 0 67.19 _ 8.4 0.41 _ 0.12 0.51 _ 0.12

COBOC vue 1 63.14 _ 8.36 0.47 _ 0.08 0.44 _ 0.12

COBOC vue 2 77.9 _ 5.85 0.32 _ 0.05 0.65 _ 0.07

COBOC vue 3 55.03 _ 6.44 0.83 _ 0.25 0.24 _ 0.18

COBOC vue 4 59.9 _ 5.28 0.53 _ 0.28 0.4 _ 0.17

COBOC vue 5 59.12 _ 7.23 0.58 _ 0.23 0.4 _ 0.14

Stratégie 􀀀Max

COBOC vue 0 92.96 _ 0.69 0.13 _ 0.01 0.87 _ 0.01

COBOC vue 1 93.19 _ 0 0.13 _ 0 0.88 _ 0

COBOC vue 2 93.57 _ 0 0.1 _ 0 0.9 _ 0

COBOC vue 3 61.34 _ 0 0.4 _ 0 0.47 _ 0

COBOC vue 4 59.42 _ 0 0.56 _ 0 0.37 _ 0

COBOC vue 5 67.7 _ 0 0.42 _ 0 0.58 _ 0

TABLEAU 4.5 — Évaluation externe de COBOC complémentaire sur Wine selon les résultats locaux.

Chaque clustering local est un consensus issu du processus de collaboration de COBOC.

parkinson % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 70.76 _ 0.29 0.25 _ 0 0.05 _ 0

COBOC vue 1 70.97 _ 0.21 0.25 _ 0 0.05 _ 0

COBOC vue 2 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

COBOC vue 3 75.77 _ 0.45 0.39 _ 0.12 0.01 _ 0

COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC vue 5 74.69 _ 1.22 0.25 _ 0 0.02 _ 0.01

Stratégie 􀀀Min

COBOC vue 0 71.16 _ 0.42 0.25 _ 0 0.04 _ 0.01

COBOC vue 1 65.77 _ 6.09 0.26 _ 0.02 0.09 _ 0.06

COBOC vue 2 65.75 _ 5.55 0.32 _ 0.07 0.08 _ 0.06

COBOC vue 3 75.82 _ 1.88 0.38 _ 0.12 0.04 _ 0.06

COBOC vue 4 73.37 _ 4.89 0.3 _ 0.1 0.04 _ 0.06

COBOC vue 5 72.61 _ 3.33 0.25 _ 0 0.04 _ 0.02

Stratégie 􀀀Max

COBOC vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02

COBOC vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0

COBOC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0

COBOC vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0

COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0

TABLEAU 4.6 —Évaluation externe de COBOC consensus sur parkinson selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC.

4.7. ÉVALUATION 187

parkinson % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 70.97 _ 0.28 0.25 _ 0 0.05 _ 0

COBOC vue 1 70.97 _ 0.21 0.25 _ 0 0.05 _ 0

COBOC vue 2 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02

COBOC vue 3 75.96 _ 0.37 0.44 _ 0.1 0.01 _ 0

COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC vue 5 74.16 _ 1.83 0.25 _ 0 0.03 _ 0.01

Stratégie 􀀀Min

COBOC vue 0 64.05 _ 5.73 0.27 _ 0.02 0.11 _ 0.06

COBOC vue 1 62.36 _ 5.54 0.27 _ 0.02 0.14 _ 0.06

COBOC vue 2 61.7 _ 3.09 0.31 _ 0.02 0.15 _ 0.05

COBOC vue 3 73.61 _ 1.67 0.3 _ 0.1 0.03 _ 0.01

COBOC vue 4 74.08 _ 2.71 0.27 _ 0.07 0.03 _ 0.02

COBOC vue 5 70.34 _ 4.68 0.25 _ 0 0.06 _ 0.04

Stratégie 􀀀Max

COBOC vue 0 62.51 _ 2.48 0.25 _ 0 0.12 _ 0.02

COBOC vue 1 62.49 _ 0 0.25 _ 0 0.12 _ 0

COBOC vue 2 61.3 _ 0 0.29 _ 0 0.2 _ 0

COBOC vue 3 76.14 _ 0 0.49 _ 0 0.01 _ 0

COBOC vue 4 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC vue 5 70.8 _ 0 0.25 _ 0 0.05 _ 0

TABLEAU 4.7 — Évaluation externe de COBOC complémentaire sur parkinson selon les résultats locaux.

Chaque clustering local est un consensus issu du processus de collaboration de COBOC.

Apport de la fusion finale par le noyau K1 et K2. Le tableaux 4.8 servant de référence dans

ce paragraphe montre les résultats obtenus sur les jeux de données Iris, Parkinson et Wine avec

application pour chacun de l’algorithme COFKM (2.4.2) dans ses déclinaisons a priori et a posteriori.

L’objectif ici est d’observer l’impact des différentes approches de recherche de consensus

par COBOC sur différentes solutions de fusion adaptées à la combinaison de modèles pour la

recherche de consensus, et relativement aux résultats des approches multi-vues.

% F-mesure AvgEnt NMI

Iris : Approche multi-vues COFKM

COFKM post 70.53 _ 6.28 0.34 _ 0.14 0.62 _ 0.11

COFKM 74.52 _ 0 0.24 _ 0 0.66 _ 0

COFKM concat 74.52 _ 0 0.24 _ 0 0.66 _ 0

Wine : Approche multi-vues COFKM

COFKM post 81.28 _ 11 0.24 _ 0.09 0.73 _ 0.13

COFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0

COFKM concat 93.19 _ 0 0.13 _ 0 0.88 _ 0

Parkinson : Approche multi-vues COFKM

COFKM post 65.12 _ 4.38 0.25 _ 0 0.1 _ 0.03

COFKM 62.06 _ 0.34 0.25 _ 0 0.12 _ 0

COFKM concat 62.06 _ 0.34 0.25 _ 0 0.12 _ 0

TABLEAU 4.8 — Évaluation externe de COFKM dans le contexte de la combinaison de modèles.

La fusion finale permet de construire une solution unique consensus entre les différentes

solutions locales obtenues. Dans ce paragraphe sont étudiés les noyaux K1 (4.41) et K2 (4.42)

188 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

considérés comme des mesures de similarité sur les paires d’individus. Deux individus xi et xj

sont alors similaires si ils sont souvent regroupés ensemble par les différents algorithmes de

clustering fA(r)g.

À partir de ces mesures de similarité, des algorithmes spécifiques sont utilisés pour construire

le clustering final. Les algorithmes implémentés sont SLINK, ALINK, CLINK, KKM et KFKM. L’adjonction

de la fusion finale avec COBOC place l’approche dans un contexte multi-vues. Les

différents algorithmes employés pour la fusion sont alors comparés à l’approche multi-vues

COFKM appliquée sur les donnnées classiques. Les différentes vues des données sont identiques

ici car les jeux de données employés sont mono-vue. Il sont alors recopiés autant de fois que

d’algorithmes ont été utilisés dans l’approche COBOC.

Globalement, pour le noyau K1, la stratégie 􀀀Max se comporte bien quelque soit l’heuristique.

En revanche les autres stratégies et heuristiques ne parviennent pas à dépasser l’approche

multi-vue de référence (Tab. 4.8). Une amélioration flagrante est néanmoins obtenue pour l’heuristique

COBOC consensus et la stratégie 􀀀Random (Tab. 4.9). Dans ce dernier cas la performance

obtenue dépasse également celles des approches classiques (Tab. 4.1). La stratégie 􀀀Min n’est

pas efficace.

Concernant le noyau K2, les différentes stratégies sont plus ou moins efficaces selon les

jeux de données et les critères d’évaluations. La stratégie 􀀀Random est plus efficace sur Iris (Tab.

4.9 ou Tab. 4.10 par le clustering par lien moyen) ou bien encore sur parkinson pour l’heuristique

COBOC consensus (meilleure F-mesure ou meilleure NMI, Tab. 4.13). La stratégie 􀀀Min

est encore une fois rarement efficace, mais parvient à avoir de bonnes performances sur parkinson

pour l’heuristique COBOC complémentaire. Le résultat le plus intéressant est l’obtention du

meilleur score sur Wine pour la stratégie 􀀀Max, meilleur que l’approche COFKM (Tab. 4.8), ou

que l’application des algorithmes classiques (Tab. 4.1).

4.7. ÉVALUATION 189

Iris % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 74.33 _ 7.18 0.29 _ 0.12 0.67 _ 0.1

COBOC ALINK 75.84 _ 6.77 0.25 _ 0.06 0.69 _ 0.08

COBOC CLINK 75.37 _ 6.64 0.27 _ 0.05 0.68 _ 0.08

COBOC KKM 77.38 _ 7.19 0.25 _ 0.05 0.7 _ 0.08

COBOC KFKM 78.22 _ 8.24 0.27 _ 0.11 0.71 _ 0.09

COBOC SC 74.05 _ 11.13 0.42 _ 0.25 0.65 _ 0.18

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 60.9 _ 11.66 0.52 _ 0.26 0.44 _ 0.22

COBOC ALINK 63.08 _ 12.09 0.5 _ 0.29 0.48 _ 0.21

COBOC CLINK 60.43 _ 12.51 0.54 _ 0.3 0.44 _ 0.22

COBOC KKM 58.11 _ 13.69 0.56 _ 0.3 0.42 _ 0.22

COBOC KFKM 60.22 _ 12.59 0.51 _ 0.25 0.46 _ 0.18

COBOC SC 64.46 _ 10.55 0.53 _ 0.24 0.55 _ 0.16

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 71.17 _ 2.13 0.26 _ 0.01 0.62 _ 0.03

COBOC ALINK 72.67 _ 0.64 0.29 _ 0.09 0.65 _ 0.02

COBOC CLINK 73.44 _ 1.13 0.26 _ 0.03 0.66 _ 0.01

COBOC KKM 72.87 _ 2.21 0.31 _ 0.13 0.64 _ 0.01

COBOC KFKM 73.09 _ 0.52 0.26 _ 0.01 0.64 _ 0.01

COBOC SC 70.68 _ 4.99 0.3 _ 0.05 0.6 _ 0.06

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 73.31 _ 6.22 0.32 _ 0.13 0.66 _ 0.07

COBOC ALINK 75.74 _ 5.77 0.29 _ 0.13 0.69 _ 0.06

COBOC CLINK 74.32 _ 5.67 0.27 _ 0.06 0.67 _ 0.07

COBOC KKM 73.22 _ 9.59 0.39 _ 0.23 0.66 _ 0.12

COBOC KFKM 78.67 _ 6.92 0.27 _ 0.11 0.71 _ 0.08

COBOC SC 72.92 _ 10.77 0.45 _ 0.27 0.65 _ 0.17

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 67.82 _ 8.01 0.38 _ 0.23 0.56 _ 0.15

COBOC ALINK 70.03 _ 7.53 0.36 _ 0.2 0.61 _ 0.13

COBOC CLINK 70.63 _ 6.12 0.29 _ 0.1 0.62 _ 0.08

COBOC KKM 64.9 _ 9.92 0.49 _ 0.23 0.55 _ 0.15

COBOC KFKM 68.08 _ 8.81 0.33 _ 0.15 0.57 _ 0.12

COBOC SC 66.66 _ 8.4 0.49 _ 0.24 0.58 _ 0.14

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 70.64 _ 1.55 0.3 _ 0.01 0.61 _ 0.02

COBOC ALINK 71.66 _ 0.76 0.31 _ 0.08 0.63 _ 0.03

COBOC CLINK 72.32 _ 0.91 0.28 _ 0.01 0.62 _ 0.01

COBOC KKM 72.05 _ 3.78 0.31 _ 0.13 0.63 _ 0.06

COBOC KFKM 73.22 _ 0.68 0.26 _ 0.01 0.64 _ 0.01

COBOC SC 71.59 _ 2.1 0.33 _ 0.13 0.62 _ 0.01

TABLEAU 4.9 — Évaluation externe de COBOC consensus sur Iris selon différentes fusions finales pour

les noyaux K1 et K2.

190 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Iris % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 71.97 _ 5.28 0.3 _ 0.07 0.62 _ 0.09

COBOC ALINK 73.48 _ 2.3 0.36 _ 0.16 0.66 _ 0.03

COBOC CLINK 73.94 _ 2.56 0.29 _ 0.05 0.65 _ 0.03

COBOC KKM 72.35 _ 4.73 0.31 _ 0.1 0.63 _ 0.06

COBOC KFKM 74.09 _ 1.6 0.3 _ 0.04 0.64 _ 0.02

COBOC SC 69.82 _ 6.31 0.47 _ 0.22 0.62 _ 0.07

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 65.87 _ 5.7 0.36 _ 0.1 0.53 _ 0.1

COBOC ALINK 71.47 _ 2.29 0.31 _ 0.09 0.62 _ 0.03

COBOC CLINK 69.1 _ 7.19 0.32 _ 0.13 0.58 _ 0.12

COBOC KKM 66.81 _ 7.23 0.34 _ 0.11 0.55 _ 0.11

COBOC KFKM 70.67 _ 2.43 0.27 _ 0.03 0.6 _ 0.03

COBOC SC 70.09 _ 4.13 0.33 _ 0.15 0.61 _ 0.05

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 65.63 _ 7.99 0.36 _ 0.11 0.51 _ 0.14

COBOC ALINK 73.56 _ 0.8 0.28 _ 0.09 0.65 _ 0.02

COBOC CLINK 71.79 _ 1.64 0.27 _ 0.01 0.63 _ 0.01

COBOC KKM 73.2 _ 1.76 0.28 _ 0.09 0.64 _ 0.02

COBOC KFKM 73.7 _ 0.67 0.26 _ 0.02 0.64 _ 0.01

COBOC SC 72.86 _ 1.63 0.32 _ 0.13 0.63 _ 0.01

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 73.17 _ 2.4 0.28 _ 0.03 0.64 _ 0.03

COBOC ALINK 74.71 _ 2.05 0.28 _ 0.04 0.67 _ 0.02

COBOC CLINK 73.64 _ 2.65 0.27 _ 0.05 0.65 _ 0.03

COBOC KKM 71.87 _ 6.34 0.36 _ 0.17 0.62 _ 0.1

COBOC KFKM 73.81 _ 2.3 0.31 _ 0.09 0.65 _ 0.02

COBOC SC 68.98 _ 5.9 0.49 _ 0.22 0.61 _ 0.07

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 70.7 _ 2.04 0.29 _ 0.02 0.62 _ 0.03

COBOC ALINK 71.28 _ 1.79 0.31 _ 0.08 0.63 _ 0.03

COBOC CLINK 71.93 _ 1.95 0.28 _ 0.03 0.63 _ 0.02

COBOC KKM 69.29 _ 4.87 0.34 _ 0.14 0.6 _ 0.06

COBOC KFKM 71.13 _ 2.2 0.27 _ 0.03 0.61 _ 0.02

COBOC SC 69.89 _ 3.01 0.4 _ 0.19 0.62 _ 0.02

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 72.32 _ 0.91 0.28 _ 0.01 0.62 _ 0.01

COBOC ALINK 72.4 _ 0.66 0.27 _ 0.01 0.64 _ 0.01

COBOC CLINK 71.9 _ 0.68 0.29 _ 0.01 0.62 _ 0.01

COBOC KKM 70.25 _ 7.75 0.36 _ 0.22 0.59 _ 0.13

COBOC KFKM 74.38 _ 0.41 0.24 _ 0.01 0.66 _ 0.01

COBOC SC 72.22 _ 1.58 0.3 _ 0.09 0.62 _ 0.01

TABLEAU 4.10 — Évaluation externe de COBOC complémentaire sur Iris selon différentes fusions finales

pour les noyaux K1 et K2.

4.7. ÉVALUATION 191

Wine % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 71.56 _ 7.02 0.29 _ 0.09 0.64 _ 0.08

COBOC ALINK 71.48 _ 5.08 0.31 _ 0.08 0.63 _ 0.07

COBOC CLINK 73.24 _ 4.87 0.28 _ 0.08 0.66 _ 0.05

COBOC KKM 74.28 _ 9.86 0.32 _ 0.09 0.63 _ 0.13

COBOC KFKM 79 _ 4.72 0.27 _ 0.04 0.7 _ 0.05

COBOC SC 81.35 _ 8.57 0.23 _ 0.05 0.73 _ 0.1

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 52.63 _ 5.83 0.79 _ 0.21 0.32 _ 0.13

COBOC ALINK 66.79 _ 9.7 0.47 _ 0.2 0.5 _ 0.18

COBOC CLINK 60.74 _ 11.4 0.55 _ 0.29 0.42 _ 0.22

COBOC KKM 67.79 _ 10.12 0.37 _ 0.11 0.54 _ 0.15

COBOC KFKM 73.64 _ 8.98 0.37 _ 0.14 0.61 _ 0.11

COBOC SC 75.9 _ 10.47 0.31 _ 0.08 0.65 _ 0.11

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0

COBOC ALINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04

COBOC CLINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04

COBOC KKM 91.08 _ 1.66 0.15 _ 0.01 0.85 _ 0.02

COBOC KFKM 90.46 _ 1.02 0.16 _ 0.01 0.84 _ 0.01

COBOC SC 70.57 _ 0.96 0.28 _ 0.03 0.67 _ 0.03

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 73.81 _ 8.61 0.28 _ 0.1 0.64 _ 0.12

COBOC ALINK 73.54 _ 4.79 0.29 _ 0.08 0.67 _ 0.05

COBOC CLINK 79.71 _ 5.94 0.24 _ 0.16 0.74 _ 0.06

COBOC KKM 75.53 _ 7.86 0.34 _ 0.15 0.66 _ 0.09

COBOC KFKM 80.1 _ 4.73 0.26 _ 0.03 0.71 _ 0.05

COBOC SC 77 _ 15.61 0.32 _ 0.24 0.66 _ 0.24

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 64.84 _ 5.11 0.47 _ 0.14 0.52 _ 0.1

COBOC ALINK 63.54 _ 9.89 0.6 _ 0.29 0.48 _ 0.17

COBOC CLINK 65.99 _ 10.05 0.49 _ 0.23 0.53 _ 0.19

COBOC KKM 75.72 _ 11.59 0.29 _ 0.07 0.65 _ 0.13

COBOC KFKM 85.74 _ 4.6 0.23 _ 0.06 0.76 _ 0.06

COBOC SC 86.78 _ 9.4 0.19 _ 0.08 0.8 _ 0.1

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 70.88 _ 0.88 0.37 _ 0.02 0.6 _ 0.02

COBOC ALINK 86.66 _ 9.97 0.16 _ 0.04 0.81 _ 0.1

COBOC CLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0

COBOC KKM 83.95 _ 11.93 0.21 _ 0.11 0.77 _ 0.13

COBOC KFKM 91.31 _ 0.66 0.14 _ 0.01 0.85 _ 0.01

COBOC SC 94.6 _ 0 0.08 _ 0 0.91 _ 0

TABLEAU 4.11 —Évaluation externe de COBOC consensus sur Wine selon différentes fusions finales pour

les noyaux K1 et K2.

192 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Wine % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 72.19 _ 5.55 0.29 _ 0.09 0.64 _ 0.08

COBOC ALINK 70.82 _ 3.37 0.33 _ 0.07 0.64 _ 0.04

COBOC CLINK 70.29 _ 8.79 0.36 _ 0.18 0.61 _ 0.14

COBOC KKM 78.59 _ 7.4 0.29 _ 0.2 0.69 _ 0.11

COBOC KFKM 81.05 _ 3.02 0.24 _ 0.03 0.73 _ 0.04

COBOC SC 83.65 _ 7.26 0.22 _ 0.05 0.76 _ 0.07

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 61.11 _ 5.62 0.58 _ 0.21 0.44 _ 0.11

COBOC ALINK 66.89 _ 9.36 0.53 _ 0.27 0.5 _ 0.19

COBOC CLINK 65.77 _ 9.03 0.53 _ 0.28 0.49 _ 0.19

COBOC KKM 74.1 _ 8 0.32 _ 0.1 0.62 _ 0.11

COBOC KFKM 79.29 _ 7.47 0.29 _ 0.1 0.68 _ 0.1

COBOC SC 79.6 _ 7.57 0.26 _ 0.06 0.7 _ 0.08

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0

COBOC ALINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04

COBOC CLINK 90.59 _ 3.19 0.15 _ 0.02 0.85 _ 0.04

COBOC KKM 91.28 _ 1.5 0.15 _ 0.01 0.85 _ 0.02

COBOC KFKM 90.46 _ 1.02 0.16 _ 0.01 0.84 _ 0.01

COBOC SC 70.57 _ 0.96 0.28 _ 0.03 0.67 _ 0.03

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 69.95 _ 4.86 0.31 _ 0.09 0.6 _ 0.08

COBOC ALINK 69.57 _ 3.87 0.38 _ 0.12 0.61 _ 0.06

COBOC CLINK 74.55 _ 6.23 0.26 _ 0.08 0.69 _ 0.07

COBOC KKM 80.73 _ 5.5 0.24 _ 0.07 0.73 _ 0.06

COBOC KFKM 81.84 _ 2.59 0.24 _ 0.03 0.74 _ 0.03

COBOC SC 77.42 _ 17.17 0.32 _ 0.26 0.67 _ 0.24

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 62.67 _ 5.52 0.49 _ 0.19 0.45 _ 0.12

COBOC ALINK 70.65 _ 12.39 0.45 _ 0.29 0.57 _ 0.2

COBOC CLINK 70.56 _ 8.01 0.39 _ 0.18 0.6 _ 0.1

COBOC KKM 79.54 _ 7.78 0.28 _ 0.09 0.69 _ 0.1

COBOC KFKM 83.14 _ 5.51 0.25 _ 0.07 0.73 _ 0.08

COBOC SC 86.02 _ 5.1 0.19 _ 0.05 0.79 _ 0.05

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 70.88 _ 0.88 0.37 _ 0.02 0.6 _ 0.02

COBOC ALINK 86.66 _ 9.97 0.16 _ 0.04 0.81 _ 0.1

COBOC CLINK 86.68 _ 0 0.17 _ 0 0.8 _ 0

COBOC KKM 88.93 _ 8.27 0.17 _ 0.08 0.82 _ 0.1

COBOC KFKM 91.31 _ 0.66 0.14 _ 0.01 0.85 _ 0.01

COBOC SC 94.6 _ 0 0.08 _ 0 0.91 _ 0

TABLEAU 4.12—Évaluation externe de COBOC complémentaire surWine selon différentes fusions finales

pour les noyaux K1 et K2.

4.7. ÉVALUATION 193

parkinson % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC ALINK 74.64 _ 1.34 0.25 _ 0 0.02 _ 0.01

COBOC CLINK 74.64 _ 1.34 0.25 _ 0 0.02 _ 0.01

COBOC KKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

COBOC KFKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

COBOC SC 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 74.06 _ 2.68 0.31 _ 0.1 0.04 _ 0.05

COBOC ALINK 70.82 _ 4.51 0.25 _ 0.01 0.05 _ 0.05

COBOC CLINK 71.29 _ 4.65 0.25 _ 0 0.05 _ 0.05

COBOC KKM 66.32 _ 6.84 0.31 _ 0.07 0.1 _ 0.07

COBOC KFKM 64.94 _ 5.14 0.29 _ 0.05 0.09 _ 0.06

COBOC SC 66.96 _ 5.24 0.32 _ 0.06 0.06 _ 0.06

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 76.05 _ 0.28 0.47 _ 0.07 0.01 _ 0

COBOC ALINK 66.82 _ 1.19 0.25 _ 0 0.08 _ 0.01

COBOC CLINK 67.3 _ 2.64 0.25 _ 0 0.08 _ 0.02

COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04

COBOC KFKM 61.46 _ 0.19 0.27 _ 0.02 0.17 _ 0.04

COBOC SC 62.88 _ 4.73 0.31 _ 0.06 0.18 _ 0.06

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 75.31 _ 0.28 0.27 _ 0.07 0.02 _ 0

COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC CLINK 71.63 _ 1.2 0.25 _ 0 0.05 _ 0.01

COBOC KKM 61.38 _ 3.26 0.31 _ 0.03 0.14 _ 0.03

COBOC KFKM 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

COBOC SC 60.28 _ 0.9 0.32 _ 0.01 0.15 _ 0.01

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 74.2 _ 1.54 0.27 _ 0.07 0.02 _ 0.01

COBOC ALINK 71.91 _ 4.68 0.27 _ 0.07 0.04 _ 0.04

COBOC CLINK 71.51 _ 2.24 0.25 _ 0 0.04 _ 0.02

COBOC KKM 63.14 _ 4.79 0.27 _ 0.02 0.11 _ 0.06

COBOC KFKM 60.77 _ 4.3 0.32 _ 0.06 0.09 _ 0.07

COBOC SC 65.78 _ 5.46 0.34 _ 0.08 0.07 _ 0.05

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC CLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04

COBOC KFKM 61.3 _ 0 0.29 _ 0 0.2 _ 0

COBOC SC 61.3 _ 0 0.29 _ 0 0.2 _ 0

TABLEAU 4.13 — Évaluation externe de COBOC consensus sur parkinson selon différentes fusions finales

pour les noyaux K1 et K2.

194 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

parkinson % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 74.38 _ 1.69 0.25 _ 0 0.02 _ 0.01

COBOC ALINK 74.24 _ 1.67 0.25 _ 0 0.03 _ 0.01

COBOC CLINK 74.24 _ 1.67 0.25 _ 0 0.03 _ 0.01

COBOC KKM 62.15 _ 4.38 0.3 _ 0.03 0.13 _ 0.04

COBOC KFKM 61.1 _ 3.31 0.31 _ 0.03 0.14 _ 0.04

COBOC SC 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 71.38 _ 5.39 0.28 _ 0.07 0.07 _ 0.09

COBOC ALINK 67.94 _ 5.88 0.26 _ 0.02 0.09 _ 0.07

COBOC CLINK 70.88 _ 2.48 0.25 _ 0 0.05 _ 0.02

COBOC KKM 62.58 _ 5.26 0.27 _ 0.02 0.15 _ 0.07

COBOC KFKM 60.76 _ 3.71 0.28 _ 0.02 0.17 _ 0.05

COBOC SC 61.68 _ 3.16 0.31 _ 0.02 0.14 _ 0.05

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 76.05 _ 0.28 0.47 _ 0.07 0.01 _ 0

COBOC ALINK 66.82 _ 1.19 0.25 _ 0 0.08 _ 0.01

COBOC CLINK 67.3 _ 2.64 0.25 _ 0 0.08 _ 0.02

COBOC KKM 61.54 _ 0.36 0.27 _ 0.02 0.17 _ 0.04

COBOC KFKM 61.38 _ 0.15 0.28 _ 0.02 0.19 _ 0.03

COBOC SC 62.88 _ 4.73 0.31 _ 0.06 0.18 _ 0.06

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 75.41 _ 0.37 0.3 _ 0.1 0.02 _ 0

COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC CLINK 71.27 _ 0.13 0.25 _ 0 0.05 _ 0

COBOC KKM 61.08 _ 3.32 0.31 _ 0.03 0.13 _ 0.03

COBOC KFKM 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02

COBOC SC 60.02 _ 0.71 0.32 _ 0.02 0.15 _ 0.02

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 72.77 _ 3.37 0.28 _ 0.08 0.04 _ 0.04

COBOC ALINK 71.58 _ 4.43 0.25 _ 0.01 0.04 _ 0.03

COBOC CLINK 72 _ 4.76 0.25 _ 0 0.04 _ 0.04

COBOC KKM 61.87 _ 3.69 0.28 _ 0.03 0.16 _ 0.06

COBOC KFKM 60.42 _ 1.73 0.29 _ 0.03 0.18 _ 0.06

COBOC SC 65.58 _ 8.48 0.36 _ 0.09 0.09 _ 0.08

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC ALINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC CLINK 75.22 _ 0 0.25 _ 0 0.02 _ 0

COBOC KKM 61.49 _ 0.19 0.27 _ 0.02 0.16 _ 0.04

COBOC KFKM 61.3 _ 0 0.29 _ 0 0.2 _ 0

COBOC SC 61.3 _ 0 0.29 _ 0 0.2 _ 0

TABLEAU 4.14 — Évaluation externe de COBOC complémentaire sur parkinson selon différentes fusions

finales pour les noyaux K1 et K2.

4.7. ÉVALUATION 195

Étude de la fusion finale par approche multi-vues. Les approches heuristiques de COBOC

ont également été étudiées en prémisse à l’application d’une approche multi-vues : ici,

COFKM ou COKFKM. L’idée est de se servir des dernières représentations optimales du jeu

de donnée, apprises par l’application de COBOC, et de construire des données multi-vues pour

COFKM et COKFKM. Soit fX_(r)gr2[1::nr] l’ensemble des représentations optimales obtenues par

fA(r)gr2[1::nr] :

– COBOC consensus COFKM et COBOC complémentaire COFKM sont appliqués sur le jeu

de donnée multi-vues X représenté par fX_(r)gr2[1::nr] ;

– COBOC consensus COKFKM et COBOC complémentaire COKFKM sont appliqués sur le

jeu de donnée multi-vues X représenté par fK(r)gr2[1::nr] K(r) est défini par :

K(r) =

1

Z

X_(r)X_(r)>

avec Z = max

(xi;xj )2X2

hxi; xji

Chaque K(r) est alors une matrice des produits scalaires normalisés entre individus.

L’approche COKFKM donne de meilleurs résultats que COFKM après application de COBOC.

Les performances ne parviennent sur Wine qu’à égaler celles de COFKM appliqué sur les données

classiques (Tab. 4.8). Concernant les jeux Iris et Parkinson, la stratégie 􀀀Random permet

d’atteindre des solutions de meilleure qualité (Tab. 4.15) (pour la F-mesure concernant Parkinson,

Tab. (4.17))

Iris % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC consensus COFKM 72.57 _ 4.2 0.25 _ 0.04 0.63 _ 0.05

COBOC consensus COKFKM 76.8 _ 6.73 0.26 _ 0.06 0.69 _ 0.07

COBOC complement COFKM 73.06 _ 1.51 0.28 _ 0.05 0.63 _ 0.02

COBOC complement COKFKM 74.35 _ 0.57 0.26 _ 0.03 0.66 _ 0.01

Stratégie 􀀀Min

COBOC consensus COFKM 66.03 _ 8 0.39 _ 0.14 0.52 _ 0.12

COBOC consensus COKFKM 67.25 _ 8.87 0.35 _ 0.15 0.55 _ 0.13

COBOC complement COFKM 70.62 _ 3.39 0.24 _ 0.05 0.61 _ 0.05

COBOC complement COKFKM 71.51 _ 2.46 0.25 _ 0.05 0.62 _ 0.03

Stratégie 􀀀Max

COBOC consensus COFKM 67.64 _ 0.84 0.27 _ 0.01 0.58 _ 0.01

COBOC consensus COKFKM 74.03 _ 2.15 0.25 _ 0.03 0.66 _ 0.02

COBOC complement COFKM 67.41 _ 0.45 0.27 _ 0.01 0.57 _ 0

COBOC complement COKFKM 73.04 _ 3.52 0.26 _ 0.05 0.65 _ 0.03

TABLEAU 4.15 — Évaluation externe de COBOC sur Iris selon différentes fusions finales multi-vues.

196 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Wine % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC consensus COFKM 83.55 _ 5.18 0.26 _ 0.05 0.74 _ 0.07

COBOC consensus COKFKM 82.91 _ 3.8 0.25 _ 0.04 0.74 _ 0.04

COBOC complement COFKM 84.72 _ 4.62 0.24 _ 0.05 0.75 _ 0.06

COBOC complement COKFKM 84.92 _ 2.16 0.21 _ 0.02 0.78 _ 0.02

Stratégie 􀀀Min

COBOC consensus COFKM 76.63 _ 4.21 0.34 _ 0.04 0.63 _ 0.05

COBOC consensus COKFKM 85.84 _ 4.88 0.24 _ 0.09 0.76 _ 0.08

COBOC complement COFKM 86.8 _ 2.83 0.23 _ 0.04 0.78 _ 0.04

COBOC complement COKFKM 85.85 _ 2.78 0.22 _ 0.04 0.76 _ 0.04

Stratégie 􀀀Max

COBOC consensus COFKM 75.16 _ 16.48 0.37 _ 0.25 0.61 _ 0.23

COBOC consensus COKFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0

COBOC complement COFKM 79.84 _ 9.11 0.28 _ 0.09 0.67 _ 0.13

COBOC complement COKFKM 93.19 _ 0 0.13 _ 0 0.88 _ 0

TABLEAU 4.16 — Évaluation externe de COBOC sur Wine selon différentes fusions finales multi-vues.

parkinson % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC consensus COFKM 56.96 _ 1.34 0.37 _ 0.06 0.03 _ 0.03

COBOC consensus COKFKM 68.85 _ 1.51 0.25 _ 0 0.07 _ 0.01

COBOC complement COFKM 57.09 _ 1.47 0.33 _ 0.03 0.04 _ 0.06

COBOC complement COKFKM 69.03 _ 0.87 0.25 _ 0 0.06 _ 0.01

Stratégie 􀀀Min

COBOC consensus COFKM 60.19 _ 3.74 0.34 _ 0.03 0.11 _ 0.07

COBOC consensus COKFKM 63.43 _ 4.09 0.25 _ 0.01 0.12 _ 0.04

COBOC complement COFKM 60.88 _ 2.02 0.34 _ 0.02 0.11 _ 0.04

COBOC complement COKFKM 59.5 _ 0.8 0.25 _ 0.01 0.23 _ 0.03

Stratégie 􀀀Max

COBOC consensus COFKM 56.14 _ 0.8 0.36 _ 0.01 0.01 _ 0.01

COBOC consensus COKFKM 61.85 _ 0.51 0.25 _ 0 0.12 _ 0

COBOC complement COFKM 55.59 _ 0.28 0.37 _ 0.04 0 _ 0

COBOC complement COKFKM 61.85 _ 0.51 0.25 _ 0 0.12 _ 0

TABLEAU 4.17—Évaluation externe de COBOC sur parkinson selon différentes fusions finales multi-vues.

4.7. ÉVALUATION 197

Évaluation externe de COBOC pour le clustering multi-vues

Les heuristiques COBOC consensus et COBOC complémentaire et les stratégies associées

(􀀀Random, 􀀀Min et 􀀀Max) ont également été observées sur les données mfeat. Le contexte est

celui du clustering multi-vues, où l’on cherche un clustering particulier réalisant un consensus en

exploitant les descriptions de données multi-vues, décrites par plusieurs groupes de variables.

Apport de la collaboration à chaque algorithme. Le tableau 4.18 montre les résultats obtenus

sur le jeu de donnée mfeat pour lesquels on applique les algorithmes localement sans

collaboration. L’objectif est d’observer les performances des différentes approches de recherche

de consensus par COBOC relativement à ces résultats.

% F-mesure AvgEnt NMI

mfeat : Algorithmes locaux différents

KM vue 0 59.37 _ 4.61 0.73 _ 0.1 0.68 _ 0.03

FKM vue 1 33.29 _ 1.07 1.76 _ 0.08 0.4 _ 0.02

SC vue 2 61.93 _ 0.85 0.69 _ 0.04 0.7 _ 0

SLINK vue 3 50.46 _ 0 1.05 _ 0 0.66 _ 0

ALINK vue 4 39.96 _ 0 1.24 _ 0 0.54 _ 0

CLINK vue 5 26.06 _ 0 1.87 _ 0 0.36 _ 0

mfeat : Algorithmes FKM locaux

FKM vue 0 63.31 _ 3.38 0.67 _ 0.03 0.7 _ 0.02

FKM vue 1 33.89 _ 0.4 1.72 _ 0.03 0.41 _ 0.01

FKM vue 2 21.94 _ 0.09 2.53 _ 0.02 0.14 _ 0

FKM vue 3 56.65 _ 2.83 0.8 _ 0.06 0.68 _ 0.01

FKM vue 4 72.59 _ 5.53 0.48 _ 0.06 0.77 _ 0.04

FKM vue 5 39.53 _ 0.19 1.32 _ 0.01 0.48 _ 0

TABLEAU 4.18 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux.

Dans un premier temps est observé avant fusion l’impact dans chaque vue (ou pour chaque

algorithme) du processus de collaboration de COBOC (Tab. 4.19 à Tab. 4.22) par rapport aux

algorithmes appliqués sur chaque vue sans collaboration (Tab. 4.18). Comme dans le contexte

de la combinaison de modèle, on n’observe pas de tendance générale d’amélioration de tous les

algorithmes de clustering locaux. Cependant, on peut observer un rétrécissement de l’écart de

performance entre les différents algorithmes. En particulier, la qualité des algorithmes les plus

performants est souvent réduite au profit de l’amélioration des algorithmes les moins performants.

Par exemple, l’algorithme de clustering spectral SC de la vue 2 de qualité maximale dans

(Tab. 4.19) voit sa qualité réduite après application de COBOC avec la stratégie 􀀀Random (selon

la F-mesure, de 61:93 à 59:59) là où l’algorithme CLINK de la vue 5 voit sa performance augmenter

(selon la F-mesure, de 26:06 à 42:52). Le même genre d’observation peut être fait sur les autres

tableaux de résultats (Tab. 4.20 à Tab. 4.22). En particulier, dans les deux derniers tableaux,

les algorithmes employés localement sont les mêmes, la différence entre les performances de

ceux-ci sont donc directement dérivées des différentes représentations de X. Les observations

décrites précédemment traduisent ici la recherche de collaboration entre les vues des données

pour atteindre un consensus, ce qui est l’objectif du clustering multi-vues.

198 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

mfeat % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 61.63 _ 4.38 0.71 _ 0.11 0.7 _ 0.03

COBOC vue 1 43.04 _ 1.5 1.37 _ 0.13 0.5 _ 0.02

COBOC vue 2 59.59 _ 2.65 0.69 _ 0.02 0.67 _ 0.02

COBOC vue 3 46.01 _ 3.28 1.22 _ 0.05 0.62 _ 0.04

COBOC vue 4 52.48 _ 4.09 0.87 _ 0.12 0.66 _ 0.04

COBOC vue 5 42.52 _ 1.55 1.23 _ 0.08 0.53 _ 0.02

Stratégie 􀀀Min

COBOC vue 0 52.48 _ 3.26 0.92 _ 0.07 0.6 _ 0.03

COBOC vue 1 27.25 _ 1.24 2.12 _ 0.09 0.27 _ 0.02

COBOC vue 2 40.63 _ 3.58 1.27 _ 0.11 0.47 _ 0.03

COBOC vue 3 34.82 _ 4.92 1.61 _ 0.2 0.45 _ 0.07

COBOC vue 4 39.21 _ 1.68 1.31 _ 0.1 0.53 _ 0.02

COBOC vue 5 32.62 _ 3.84 1.58 _ 0.1 0.4 _ 0.04

Stratégie 􀀀Max

COBOC vue 0 59.37 _ 4.61 0.73 _ 0.1 0.68 _ 0.03

COBOC vue 1 33.42 _ 0.85 1.73 _ 0.02 0.4 _ 0.01

COBOC vue 2 62.24 _ 0.05 0.67 _ 0 0.7 _ 0

COBOC vue 3 54.07 _ 0 0.97 _ 0 0.67 _ 0

COBOC vue 4 39.96 _ 0 1.24 _ 0 0.54 _ 0

COBOC vue 5 26.06 _ 0 1.87 _ 0 0.36 _ 0

TABLEAU 4.19 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs algorithmes

FKM.

mfeat % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 52.16 _ 5.83 0.94 _ 0.17 0.61 _ 0.05

COBOC vue 1 29.28 _ 1.72 2.01 _ 0.13 0.33 _ 0.03

COBOC vue 2 49.13 _ 4.21 1 _ 0.12 0.58 _ 0.04

COBOC vue 3 37.48 _ 5.2 1.46 _ 0.2 0.51 _ 0.08

COBOC vue 4 40.6 _ 4.54 1.25 _ 0.23 0.53 _ 0.05

COBOC vue 5 37.24 _ 2.84 1.35 _ 0.11 0.47 _ 0.03

Stratégie 􀀀Min

COBOC vue 0 45.15 _ 2.91 1.13 _ 0.12 0.53 _ 0.03

COBOC vue 1 21.66 _ 2.47 2.41 _ 0.07 0.16 _ 0.05

COBOC vue 2 39.44 _ 1.49 1.32 _ 0.09 0.48 _ 0.02

COBOC vue 3 30.81 _ 5.44 1.8 _ 0.25 0.39 _ 0.08

COBOC vue 4 38.25 _ 6.79 1.32 _ 0.24 0.51 _ 0.06

COBOC vue 5 27.53 _ 3.09 1.73 _ 0.09 0.36 _ 0.03

Stratégie 􀀀Max

COBOC vue 0 61.32 _ 2.35 0.69 _ 0.09 0.7 _ 0.02

COBOC vue 1 42.74 _ 1.18 1.37 _ 0.05 0.51 _ 0.01

COBOC vue 2 62.95 _ 1.36 0.66 _ 0.06 0.72 _ 0.01

COBOC vue 3 48.67 _ 3.61 1.07 _ 0.08 0.6 _ 0.04

COBOC vue 4 45.13 _ 3.45 0.97 _ 0.12 0.61 _ 0.03

COBOC vue 5 35.66 _ 4.16 1.49 _ 0.16 0.45 _ 0.03

TABLEAU 4.20 — Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux.

Chaque clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs

algorithmes FKM.

4.7. ÉVALUATION 199

mfeat % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 67.8 _ 5.51 0.57 _ 0.07 0.74 _ 0.03

COBOC vue 1 42.96 _ 0.82 1.36 _ 0.08 0.5 _ 0.01

COBOC vue 2 53.03 _ 5.26 0.98 _ 0.2 0.61 _ 0.05

COBOC vue 3 51.56 _ 4.12 0.89 _ 0.11 0.64 _ 0.03

COBOC vue 4 64.2 _ 3.74 0.64 _ 0.04 0.7 _ 0.02

COBOC vue 5 50.3 _ 2.57 1.01 _ 0.08 0.57 _ 0.02

Stratégie 􀀀Min

COBOC vue 0 57.21 _ 4.67 0.79 _ 0.09 0.63 _ 0.04

COBOC vue 1 29.24 _ 3.27 2.04 _ 0.15 0.31 _ 0.06

COBOC vue 2 26.55 _ 2.04 2.21 _ 0.16 0.26 _ 0.05

COBOC vue 3 49.49 _ 6.08 1.02 _ 0.21 0.59 _ 0.05

COBOC vue 4 39.99 _ 2.97 1.4 _ 0.1 0.46 _ 0.04

COBOC vue 5 38.64 _ 4.79 1.38 _ 0.19 0.46 _ 0.06

Stratégie 􀀀Max

COBOC vue 0 63.31 _ 3.38 0.67 _ 0.03 0.7 _ 0.02

COBOC vue 1 33.89 _ 0.38 1.73 _ 0.03 0.41 _ 0.01

COBOC vue 2 21.84 _ 0.1 2.55 _ 0.04 0.14 _ 0.01

COBOC vue 3 56.65 _ 2.83 0.8 _ 0.06 0.68 _ 0.01

COBOC vue 4 72.46 _ 5.55 0.48 _ 0.06 0.77 _ 0.04

COBOC vue 5 39.53 _ 0.19 1.32 _ 0.01 0.48 _ 0

TABLEAU 4.21 — Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. Chaque

clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs algorithmes

différents.

mfeat % F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC vue 0 52.5 _ 3.22 0.98 _ 0.11 0.6 _ 0.03

COBOC vue 1 28.4 _ 1.92 2 _ 0.18 0.31 _ 0.04

COBOC vue 2 27.68 _ 1.78 2.13 _ 0.18 0.3 _ 0.04

COBOC vue 3 47.78 _ 5.06 1 _ 0.16 0.58 _ 0.05

COBOC vue 4 40.08 _ 6.27 1.38 _ 0.25 0.46 _ 0.06

COBOC vue 5 46.21 _ 4.58 1.15 _ 0.15 0.53 _ 0.04

Stratégie 􀀀Min

COBOC vue 0 44.1 _ 4.04 1.19 _ 0.14 0.5 _ 0.04

COBOC vue 1 24.71 _ 0.56 2.28 _ 0.11 0.23 _ 0.02

COBOC vue 2 25.34 _ 2.58 2.25 _ 0.17 0.24 _ 0.05

COBOC vue 3 35.81 _ 6.86 1.39 _ 0.25 0.45 _ 0.08

COBOC vue 4 38.19 _ 0.96 1.45 _ 0.09 0.45 _ 0.01

COBOC vue 5 36.47 _ 2.51 1.47 _ 0.1 0.42 _ 0.03

Stratégie 􀀀Max

COBOC vue 0 64.01 _ 0.41 0.63 _ 0.03 0.71 _ 0.01

COBOC vue 1 43.35 _ 0.84 1.4 _ 0.02 0.51 _ 0.01

COBOC vue 2 30.52 _ 3.24 1.84 _ 0.17 0.34 _ 0.06

COBOC vue 3 56.29 _ 3.6 0.76 _ 0.06 0.68 _ 0.03

COBOC vue 4 73.89 _ 6.39 0.45 _ 0.06 0.78 _ 0.04

COBOC vue 5 48 _ 1.8 1.07 _ 0.05 0.55 _ 0.02

TABLEAU 4.22 — Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux.

Chaque clustering local est un consensus issu du processus de collaboration de COBOC entre plusieurs

algorithmes différents.

200 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

Apport de la fusion finale par le noyau K1 et K2. Le tableau 4.23 rappelle les résultats

obtenus sur mfeat par l’approche COFKM dans ses trois variantes (cf. section 2.4.2). Ces résultats

permettent d’observer l’apport éventuel de COBOC pour la recherche d’un clustering multi-vues.

% F-mesure AvgEnt NMI

Approche multi-vues COFKM

COFKM post 47.49 _ 5.3 0.94 _ 0.13 0.61 _ 0.04

COFKM 92.86 _ 0.18 0.16 _ 0 0.93 _ 0

COFKM concat 90.37 _ 3.7 0.19 _ 0.04 0.92 _ 0.02

TABLEAU 4.23 — Évaluation externe de COFKM sur mfeat.

Les tableaux 4.24 à 4.27 permettent de mesurer l’apport de la fusion finale par les noyaux

K1 et K2 permettant d’obtenir une solution au problème du clustering multi-vues posé par le

jeu de donnée mfeat. Dans tous les cas, il n’est pas possible d’atteindre, selon le paramétrage

des heuristiques et des stratégies, les performances obtenues par COFKM, même lorsque pour

COBOC, dans chaque vue est appliqué un FKM. En revanche, l’objectif d’atteindre une solution

consensus de meilleure qualité que les différents algorithmes de base employés est réalisé. On

peut l’observer en croisant par exemple les tableaux 4.24 ou 4.27 et le tableau 4.18. Les stratégies

􀀀Random et 􀀀Max permettent une nette amélioration. En revanche, la stratégie 􀀀Min ne

trouve pas de solution consensus satisfaisante.

4.7. ÉVALUATION 201

mfeat % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 48.2 _ 4.9 1.04 _ 0.18 0.63 _ 0.04

COBOC ALINK 63.21 _ 3.04 0.66 _ 0.08 0.75 _ 0.03

COBOC CLINK 46.73 _ 7.24 1 _ 0.22 0.64 _ 0.05

COBOC KKM 67.21 _ 5.8 0.56 _ 0.12 0.76 _ 0.03

COBOC KFKM 76.82 _ 4.55 0.42 _ 0.06 0.81 _ 0.03

COBOC SC 74.85 _ 3.15 0.42 _ 0.03 0.81 _ 0.01

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 35.51 _ 5.02 1.54 _ 0.15 0.45 _ 0.05

COBOC ALINK 50.8 _ 2.19 0.94 _ 0.17 0.62 _ 0.03

COBOC CLINK 27.77 _ 3.09 1.66 _ 0.12 0.43 _ 0.05

COBOC KKM 56.81 _ 3.3 0.82 _ 0.18 0.65 _ 0.04

COBOC KFKM 67.68 _ 5.74 0.62 _ 0.11 0.72 _ 0.05

COBOC SC 66.28 _ 2.61 0.61 _ 0.06 0.72 _ 0.03

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 43.32 _ 4.05 1.14 _ 0.15 0.59 _ 0.03

COBOC ALINK 62.23 _ 4.51 0.62 _ 0.04 0.73 _ 0.03

COBOC CLINK 33.58 _ 2.89 1.39 _ 0.12 0.54 _ 0.03

COBOC KKM 68.79 _ 3.22 0.52 _ 0.07 0.77 _ 0.03

COBOC KFKM 77.62 _ 2.39 0.38 _ 0.05 0.82 _ 0.02

COBOC SC 76.23 _ 3.18 0.38 _ 0.04 0.82 _ 0.02

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 28.47 _ 11.56 1.83 _ 0.62 0.44 _ 0.13

COBOC ALINK 31.2 _ 14.48 1.45 _ 0.43 0.48 _ 0.13

COBOC CLINK 32.7 _ 14.85 1.41 _ 0.39 0.51 _ 0.12

COBOC KKM 71.87 _ 3.6 0.48 _ 0.07 0.8 _ 0.02

COBOC KFKM 55.62 _ 14.47 0.97 _ 0.38 0.64 _ 0.13

COBOC SC 79.22 _ 3.05 0.34 _ 0.02 0.84 _ 0.02

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 29.56 _ 9.82 1.5 _ 0.31 0.45 _ 0.07

COBOC ALINK 30.51 _ 12.73 1.52 _ 0.31 0.46 _ 0.11

COBOC CLINK 30.77 _ 12.31 1.46 _ 0.3 0.48 _ 0.08

COBOC KKM 64.33 _ 6.1 0.6 _ 0.14 0.73 _ 0.05

COBOC KFKM 25.36 _ 3.07 2.06 _ 0.16 0.27 _ 0.04

COBOC SC 75.12 _ 2.09 0.45 _ 0.08 0.81 _ 0.02

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 45.39 _ 16.49 1.04 _ 0.46 0.61 _ 0.13

COBOC ALINK 45.26 _ 17.89 1.09 _ 0.48 0.6 _ 0.16

COBOC CLINK 46.1 _ 17.84 0.99 _ 0.5 0.61 _ 0.14

COBOC KKM 74.5 _ 6.43 0.43 _ 0.14 0.83 _ 0.03

COBOC KFKM 32.21 _ 5.75 1.77 _ 0.28 0.38 _ 0.09

COBOC SC 77 _ 2.53 0.39 _ 0.07 0.84 _ 0.01

TABLEAU 4.24—Évaluation externe de COBOC consensus avec plusieurs algorithmes différents sur mfeat

selon différentes fusions finales pour les noyaux K1 et K2.

202 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

mfeat % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 39.38 _ 1.91 1.35 _ 0.14 0.52 _ 0.04

COBOC ALINK 54.66 _ 5.55 0.81 _ 0.12 0.66 _ 0.05

COBOC CLINK 32.89 _ 6.1 1.44 _ 0.26 0.5 _ 0.06

COBOC KKM 61.03 _ 7.15 0.64 _ 0.11 0.7 _ 0.05

COBOC KFKM 66.83 _ 6.22 0.6 _ 0.09 0.72 _ 0.05

COBOC SC 68.42 _ 2.7 0.56 _ 0.07 0.75 _ 0.02

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 28.8 _ 3.98 1.82 _ 0.17 0.36 _ 0.06

COBOC ALINK 44.95 _ 6.02 1.1 _ 0.1 0.56 _ 0.06

COBOC CLINK 25 _ 4.03 1.79 _ 0.17 0.39 _ 0.05

COBOC KKM 51.43 _ 6.88 0.94 _ 0.16 0.6 _ 0.06

COBOC KFKM 52.35 _ 9.79 1.02 _ 0.31 0.6 _ 0.09

COBOC SC 58.43 _ 7.71 0.84 _ 0.2 0.65 _ 0.07

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 53.03 _ 4.97 0.89 _ 0.17 0.65 _ 0.03

COBOC ALINK 63.46 _ 4.61 0.62 _ 0.12 0.75 _ 0.03

COBOC CLINK 46.01 _ 8.05 1.07 _ 0.28 0.63 _ 0.05

COBOC KKM 69.87 _ 2.32 0.48 _ 0.06 0.78 _ 0.01

COBOC KFKM 77.37 _ 3.86 0.38 _ 0.04 0.82 _ 0.02

COBOC SC 74.42 _ 3.06 0.4 _ 0.04 0.81 _ 0.02

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 23.95 _ 1.75 1.83 _ 0.36 0.4 _ 0.05

COBOC ALINK 23.47 _ 0.44 1.68 _ 0.03 0.4 _ 0.01

COBOC CLINK 24.71 _ 0.25 1.6 _ 0.01 0.45 _ 0.01

COBOC KKM 63.68 _ 3.99 0.61 _ 0.03 0.74 _ 0.02

COBOC KFKM 27.16 _ 5.09 2 _ 0.2 0.3 _ 0.09

COBOC SC 77.75 _ 5.36 0.41 _ 0.08 0.83 _ 0.03

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 26.24 _ 5.27 1.8 _ 0.41 0.41 _ 0.06

COBOC ALINK 30.04 _ 11.81 1.5 _ 0.26 0.47 _ 0.1

COBOC CLINK 29.36 _ 9.49 1.49 _ 0.23 0.47 _ 0.07

COBOC KKM 60.95 _ 7.1 0.69 _ 0.19 0.7 _ 0.06

COBOC KFKM 22.28 _ 1.93 2.18 _ 0.07 0.21 _ 0.03

COBOC SC 70.85 _ 4.14 0.49 _ 0.07 0.77 _ 0.03

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 38.11 _ 16.93 1.47 _ 0.64 0.54 _ 0.17

COBOC ALINK 40.59 _ 19.76 1.24 _ 0.5 0.56 _ 0.17

COBOC CLINK 37.86 _ 15.56 1.23 _ 0.45 0.55 _ 0.12

COBOC KKM 71.86 _ 4.75 0.44 _ 0.1 0.8 _ 0.03

COBOC KFKM 36.15 _ 6.56 1.52 _ 0.28 0.44 _ 0.09

COBOC SC 79.09 _ 2.76 0.34 _ 0.08 0.84 _ 0.02

TABLEAU 4.25 — Évaluation externe de COBOC complémentaire avec plusieurs algorithmes différents

sur mfeat selon différentes fusions finales pour les noyaux K1 et K2.

4.7. ÉVALUATION 203

mfeat % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 52.69 _ 4.6 0.96 _ 0.2 0.65 _ 0.05

COBOC ALINK 64.36 _ 3.37 0.65 _ 0.04 0.74 _ 0.03

COBOC CLINK 35.02 _ 5.67 1.41 _ 0.16 0.55 _ 0.07

COBOC KKM 66.76 _ 7.95 0.61 _ 0.15 0.75 _ 0.05

COBOC KFKM 74.24 _ 5.95 0.46 _ 0.07 0.79 _ 0.03

COBOC SC 77.81 _ 4.23 0.38 _ 0.04 0.82 _ 0.02

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 36.04 _ 3.7 1.5 _ 0.12 0.45 _ 0.04

COBOC ALINK 52.73 _ 5.03 0.93 _ 0.16 0.61 _ 0.05

COBOC CLINK 29.08 _ 5.58 1.62 _ 0.18 0.43 _ 0.05

COBOC KKM 57.37 _ 6.26 0.78 _ 0.11 0.65 _ 0.06

COBOC KFKM 64.66 _ 7 0.68 _ 0.12 0.69 _ 0.06

COBOC SC 63.9 _ 3.62 0.65 _ 0.07 0.7 _ 0.03

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 42.15 _ 4.49 1.16 _ 0.15 0.59 _ 0.04

COBOC ALINK 69.89 _ 7.9 0.56 _ 0.16 0.77 _ 0.05

COBOC CLINK 40.97 _ 5.96 1.27 _ 0.18 0.59 _ 0.05

COBOC KKM 72.51 _ 5.37 0.49 _ 0.09 0.79 _ 0.03

COBOC KFKM 79.56 _ 2.42 0.39 _ 0.05 0.83 _ 0.01

COBOC SC 80.27 _ 3.3 0.35 _ 0.04 0.84 _ 0.02

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 29.57 _ 13.84 2 _ 0.76 0.41 _ 0.16

COBOC ALINK 32.72 _ 16.9 1.46 _ 0.5 0.48 _ 0.15

COBOC CLINK 33.52 _ 17.03 1.4 _ 0.42 0.51 _ 0.13

COBOC KKM 68.45 _ 5.12 0.54 _ 0.06 0.78 _ 0.02

COBOC KFKM 43.48 _ 15.17 1.33 _ 0.43 0.5 _ 0.17

COBOC SC 81.81 _ 2.57 0.31 _ 0.02 0.86 _ 0.01

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 42.22 _ 6.71 1.24 _ 0.23 0.56 _ 0.06

COBOC ALINK 58.03 _ 5.41 0.76 _ 0.16 0.69 _ 0.05

COBOC CLINK 55.94 _ 6.19 0.71 _ 0.13 0.66 _ 0.06

COBOC KKM 65.03 _ 7.86 0.63 _ 0.16 0.73 _ 0.07

COBOC KFKM 28.07 _ 4.04 2 _ 0.25 0.33 _ 0.08

COBOC SC 72.59 _ 3.49 0.48 _ 0.09 0.79 _ 0.03

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 44.3 _ 15.27 1.08 _ 0.43 0.61 _ 0.12

COBOC ALINK 49.56 _ 20.64 1 _ 0.53 0.63 _ 0.17

COBOC CLINK 47.92 _ 19.89 0.99 _ 0.51 0.62 _ 0.15

COBOC KKM 68.08 _ 5.17 0.53 _ 0.05 0.78 _ 0.04

COBOC KFKM 30.9 _ 3.23 1.98 _ 0.15 0.38 _ 0.07

COBOC SC 76.6 _ 1.08 0.35 _ 0.02 0.84 _ 0.01

TABLEAU 4.26 — Évaluation externe de COBOC consensus avec plusieurs algorithmes FKM sur mfeat

selon différentes fusions finales pour les noyaux K1 et K2.

204 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

mfeat % F-mesure AvgEnt NMI

Similarité K1 - Stratégie 􀀀Random

COBOC SLINK 32.3 _ 1.81 1.64 _ 0.21 0.43 _ 0.04

COBOC ALINK 52.82 _ 2.25 1 _ 0.08 0.62 _ 0.03

COBOC CLINK 30.89 _ 4.76 1.6 _ 0.16 0.45 _ 0.04

COBOC KKM 56 _ 4.34 0.82 _ 0.13 0.64 _ 0.04

COBOC KFKM 66.59 _ 4.44 0.65 _ 0.08 0.71 _ 0.04

COBOC SC 68.62 _ 5.46 0.57 _ 0.07 0.74 _ 0.04

Similarité K1 - Stratégie 􀀀Min

COBOC SLINK 28.2 _ 1.93 1.82 _ 0.08 0.36 _ 0.02

COBOC ALINK 40.35 _ 5.66 1.33 _ 0.19 0.5 _ 0.06

COBOC CLINK 21.66 _ 0.89 2.03 _ 0.1 0.31 _ 0.02

COBOC KKM 47.89 _ 3.79 1.09 _ 0.12 0.55 _ 0.03

COBOC KFKM 50.02 _ 5.22 1.03 _ 0.15 0.56 _ 0.04

COBOC SC 53.39 _ 4.79 0.96 _ 0.12 0.61 _ 0.04

Similarité K1 - Stratégie 􀀀Max

COBOC SLINK 49.97 _ 7.04 1.08 _ 0.2 0.65 _ 0.06

COBOC ALINK 70.6 _ 7.69 0.48 _ 0.11 0.78 _ 0.05

COBOC CLINK 36.78 _ 8.74 1.29 _ 0.29 0.58 _ 0.08

COBOC KKM 73.82 _ 6.41 0.48 _ 0.12 0.8 _ 0.03

COBOC KFKM 80.49 _ 4.37 0.36 _ 0.05 0.83 _ 0.03

COBOC SC 76.16 _ 4.38 0.43 _ 0.08 0.82 _ 0.03

Similarité K2 - Stratégie 􀀀Random

COBOC SLINK 29.72 _ 9.4 1.48 _ 0.29 0.47 _ 0.06

COBOC ALINK 30.22 _ 13.2 1.5 _ 0.42 0.45 _ 0.11

COBOC CLINK 29.68 _ 10.07 1.47 _ 0.27 0.48 _ 0.07

COBOC KKM 63.55 _ 1.69 0.7 _ 0.06 0.72 _ 0.01

COBOC KFKM 36.3 _ 2.82 1.68 _ 0.16 0.43 _ 0.03

COBOC SC 76.05 _ 3.98 0.44 _ 0.11 0.82 _ 0.02

Similarité K2 - Stratégie 􀀀Min

COBOC SLINK 33.24 _ 8.51 1.64 _ 0.46 0.47 _ 0.09

COBOC ALINK 42.82 _ 15.91 1.14 _ 0.45 0.56 _ 0.14

COBOC CLINK 41.77 _ 14.23 1.18 _ 0.37 0.55 _ 0.11

COBOC KKM 61.78 _ 4.1 0.73 _ 0.06 0.69 _ 0.02

COBOC KFKM 26.07 _ 4.33 2.09 _ 0.19 0.29 _ 0.07

COBOC SC 65.5 _ 4.09 0.64 _ 0.12 0.73 _ 0.03

Similarité K2 - Stratégie 􀀀Max

COBOC SLINK 25.69 _ 0.33 1.61 _ 0.01 0.45 _ 0.01

COBOC ALINK 24.24 _ 0.26 1.67 _ 0.01 0.41 _ 0.01

COBOC CLINK 25.19 _ 0.47 1.6 _ 0.01 0.45 _ 0.01

COBOC KKM 71.85 _ 4.6 0.47 _ 0.09 0.8 _ 0.03

COBOC KFKM 36.4 _ 5.35 1.6 _ 0.22 0.45 _ 0.09

COBOC SC 77.84 _ 4.38 0.34 _ 0.05 0.83 _ 0.02

TABLEAU 4.27 — Évaluation externe de COBOC complémentaire avec plusieurs algorithmes FKM sur

mfeat selon différentes fusions finales pour les noyaux K1 et K2.

4.8. DISCUSSION 205

Étude de la fusion finale par approche multi-vues. Une dernière étude intéressante est d’observer

l’apport de la recherche de solutions locales consensus par COBOC pour le clustering

multi-vues, notamment pour l’utilisation de COFKM. COBOC est utilisé ici pour l’apprentissage

de représentations optimales locales, dont on espère qu’elles seront de suffisamment bonne qualité

pour une recherche de consensus par COFKM. Pour rappel, soit fX_(r)gr2[1::nr] l’ensemble

des représentations optimales obtenues par fA(r)gr2[1::nr] :

– COBOC consensus COFKM et COBOC complémentaire COFKM sont appliqués sur le jeu

de donnée multi-vues X représenté par fX_(r)gr2[1::nr] ;

– COBOC consensus COKFKM et COBOC complémentaire COKFKM sont appliqués sur le

jeu de donnée multi-vues X représenté par fK(r)gr2[1::nr] K(r) est défini par :

K(r) =

1

Z

X_(r)X_(r)>

avec Z = max

(xi;xj )2X2

hxi; xji

Les meilleures performances de COBOC sont atteintes par l’adjonction de COKFKM comme

procédure de fusion finale, et avec les noyaux fK(r)gr2[1::nr]. Le résultat fort ici est l’amélioration

de COFKM (tableau 4.29), déjà très performant sur mfeat, par COKFKM à partir des noyaux

issus de l’application de COBOC complémentaire avec la stratégie 􀀀Max.

% F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC consensus COFKM 52.41 _ 9.22 1.04 _ 0.3 0.62 _ 0.1

COBOC consensus COKFKM 84.72 _ 7.45 0.28 _ 0.09 0.87 _ 0.05

COBOC complement COFKM 48.74 _ 5.28 1.08 _ 0.13 0.58 _ 0.05

COBOC complement COKFKM 55.64 _ 8.36 0.85 _ 0.21 0.65 _ 0.08

Stratégie 􀀀Min

COBOC consensus COFKM 41.09 _ 6.65 1.34 _ 0.31 0.5 _ 0.1

COBOC consensus COKFKM 50.11 _ 6.49 1.04 _ 0.18 0.59 _ 0.06

COBOC complement COFKM 41.78 _ 7.21 1.41 _ 0.32 0.48 _ 0.1

COBOC complement COKFKM 35.61 _ 2.03 1.63 _ 0.09 0.43 _ 0.03

Stratégie 􀀀Max

COBOC consensus COFKM 41.34 _ 3.73 1.44 _ 0.19 0.53 _ 0.05

COBOC consensus COKFKM 91.4 _ 0.14 0.19 _ 0 0.92 _ 0

COBOC complement COFKM 48.66 _ 2.6 1.16 _ 0.15 0.6 _ 0.03

COBOC complement COKFKM 87.31 _ 3.55 0.23 _ 0.03 0.89 _ 0.02

TABLEAU 4.28 — Évaluation externe de COBOC avec plusieurs algorithmes différents sur mfeat selon

différentes fusions finales multi-vues.

4.8 Discussion

La plateforme de clustering collaboratif proposée se décline en deux variantes heuristiques

selon l’objectif de recherche d’un ou plusieurs clusterings consensus ou de plusieurs clusterings

alternatifs. Celles-ci peuvent être appliquées dans différents contextes comme :

– la combinaison de modèles, où plusieurs algorithmes de clustering peuvent être employés

pour fouiller un jeu de donnée classique mono-vue ;

– le multi-vues, où un ou plusieurs algorithmes peuvent être employés pour fouiller les

parties communes ou différentes parmi des données multi-représentées.

206 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

% F-mesure AvgEnt NMI

Stratégie 􀀀Random

COBOC consensus COFKM 50.73 _ 12.13 1.09 _ 0.37 0.6 _ 0.13

COBOC consensus COKFKM 83.93 _ 5.22 0.29 _ 0.07 0.87 _ 0.03

COBOC complement COFKM 48.63 _ 4.84 1.11 _ 0.15 0.58 _ 0.06

COBOC complement COKFKM 49.21 _ 7.66 1.06 _ 0.16 0.59 _ 0.07

Stratégie 􀀀Min

COBOC consensus COFKM 40.68 _ 9.79 1.42 _ 0.37 0.48 _ 0.11

COBOC consensus COKFKM 48.34 _ 10.72 1.2 _ 0.34 0.59 _ 0.09

COBOC complement COFKM 37.18 _ 5.59 1.55 _ 0.22 0.43 _ 0.08

COBOC complement COKFKM 32.49 _ 1.83 1.79 _ 0.07 0.4 _ 0.03

Stratégie 􀀀Max

COBOC consensus COFKM 39.71 _ 2.79 1.45 _ 0.16 0.52 _ 0.04

COBOC consensus COKFKM 91.47 _ 0 0.19 _ 0 0.92 _ 0

COBOC complement COFKM 37.26 _ 4.46 1.58 _ 0.32 0.47 _ 0.07

COBOC complement COKFKM 93.26 _ 0.55 0.15 _ 0.01 0.93 _ 0.01

TABLEAU 4.29 — Évaluation externe de COBOC avec plusieurs algorithmes FKM sur mfeat selon différentes

fusions finales multi-vues.

La collaboration proposée pour atteindre l’accord (consensus) ou le désaccord (alternatives)

entre les différents algorithmes employés est basé sur un mécanisme d’échange de contraintes

permettant localement de trouver simultanément un clustering atteignant l’objectif et un sousespace

de représentation des données menant à ces clusterings. Cette dernière facette n’est pas

présente dans les différentes approches étudiées dans l’état de l’art, et permet des analyses d’un

autre ordre. Par exemple, une question à laquelle la contribution proposée peut répondre est la

suivante :

quelles sont localement les sous-espaces de représentation qui permettent d’atteindre un consensus

quelquesoient les algorithmes de clustering locaux employés ?

La résolution de cette question peut permettre, pour des données multi-vues, d’identifier

les attributs créant du bruit pour l’obtention d’un clustering cible. Ceux-ci sont alors de faibles

contributeurs à la définition du sous-espace permettant par exemple d’atteindre des solutions de

clutering proches.

L’approche a été évaluée empiriquement afin d’observer son comportement de manière interne,

et de manière externe. Ces expériences ont permis de dégager des liens comme par

exemple, l’importance de chercher une solution consensus entre les algorithmes locaux lorsque

ceux-ci proposent des solutions de clustering de base très diverses.

L’approche proposée a néanmoins le défaut d’être assez fortement paramétrée, notamment

par le volume de contraintes échangées et le nombre d’échanges envisagé. Nous avons observé

notamment que les solutions les plus intéressantes étaient obtenues lors des quelques premiers

échanges. Une observation intéressante serait de conserver l’historique des solutions trouvées

à chaque étape de génération des contraintes afin d’observer, par exemple dans le cas de la

recherche de consensus, si la solution maximisant l’information mutuelle normalisée durant

une exécution de l’algorithme permet d’atteindre une solution vraiment meilleure au sens de

l’évaluation externe. La variante ALTERBOC, elle, manque de procédure d’évaluation externe,

mais ceci est normal par essence. En effet si un clustering de bonne qualité peut être obtenu

sur des données, au sens de cette évaluation externe, alors une alternative sera de mauvaise

4.9. CONCLUSION 207

qualité au sens de l’évaluation choisie et sera donc peu valorisable. En revanche, les techniques

de recherche d’alternatives trouvent tout à fait leur place lors de la confrontation à de réelles

données dont on ne connait pas du tout la classification de départ, ou bien lorsque celle-ci est

connu de l’analyste qui préfère alors découvrir quelque chose de différent.

4.9 Conclusion

Ce chapitre a permis d’introduire la plateforme collaborative proposée, dont COBOC et ALTERBOC

sont des instances particulières. Il reprend de façon synthétique des développements

réalisés dans le cadre du clustering d’ensemble qui mène au clustering collaboratif pour la recherche

de consensus. Des développement récents, et des interrogations sur la diversification

des problèmes autour du clustering [Kriegel and Zimek, 2010] ont guidé la recherche bibliographique

autour notamment du clustering alternatif, et laisse entrevoir les liens entre toutes

les problématiques, avec en suspens l’éventualité de voir des approches susceptibles de les unifier

et de proposer un mécanisme de résolution adéquat. La plateforme proposée tend vers cet

objectif de pouvoir gérer simultanément la recherche d’un ou plusieurs clusterings, consensus

ou alternatifs, à travers un même mécanisme de collaborations entre plusieurs classifieurs non

supervisés.

Les études expérimentales proposées suggèrent de nombreuses applications, mais celles-ci

n’ont pu être réalisées afin de valoriser davantage les approches. La plateforme présentée est

bien entendue extensible, et d’autres heuristiques peuvent être proposées pour atteindre les

différents objectifs fixés. En particulier, en perspective de l’approche proposée, une amélioration

serait, plutôt que de fixer la stratégie de génération des contraintes pour chaque algorithme de

clustering local, de trouver un moyen de déterminer automatiquement quelles contraintes serait

les plus judicieuses pour chacun.

 

Conclusion et perspectives

Conclusion

Ce travail de thèse a proposé une vision restreinte mais constructive, de l’évolution de la

problématique classique du clustering, dans un premier temps vers l’adaptation à des problématiques

applicatives de multiplicité de données, puis dans un second temps vers les problématiques

de multiplicité des analyses et leur combinaison.

La première problématique abordée est la classification non supervisée multi-vues. Nous

avons proposé pour résoudre ce problème, une approche centralisée collaborative et floue, ainsi

qu’une extension à noyaux, permettant de traiter des données décrites simultanément par des représentations

vectorielles et relationnelles. L’élaboration de cette contribution est permise grâce

aux travaux de [Pedrycz, 2002] (COFC) et [Bickel and Scheffer, 2005] (COEM). Partant de l’approche

multi-vues non convergente COEM, nous avons proposé, sur la base d’une extension des

K-moyennes floues ([Bezdek, 1981]) à la manière de COFC, un critère simple et intuitif menant

à un algorithme également simple, intuitif, et convergent. L’utilisation éventuelle de noyaux

permet d’adapter l’algorithme pour des questions de complexité algorithmique. De plus, l’approche

proposée généralise complètement diverses solutions de fusion naïves, basées sur FKM :

la concaténation ou fusion a priori, où FKM est directement appliqué à la représentation jointe

des différentes vues, et la fusion a posteriori, lorsque FKM est appliqué indépendamment sur

chaque vue.

Le développement des approches centralisées dédiées aux données multi-vues reposent sur

le paradigme de la recherche de clusterings adaptés dans chaque vue, mais liés entre eux par la

réduction d’un critère de désaccord. Ce paradigme implique la construction de différents clusterings

locaux devant tendre ensemble vers une solution consensus. La contribution proposée

relevant d’une approche de clustering connue et paramétrée, les clusterings locaux peuvent alors

être construits explicitement pour répondre au critère objectif posé, celui-ci étant simple. Cet aspect

peut être considéré comme une première approche faisant intervenir la multiplicité des

traitements, dans la mesure où les clusterings locaux optimaux minimisant le désaccord constituent

un ensemble de clusterings consensus, émanant tous de la collaboration entre les vues.

L’évolution naturelle envisagée pour nos contributions a alors été de proposer un modèle permettant

de s’abstraire des algorithmes utilisés dans chaque vue ainsi que de leurs paramètres.

L’instanciation d’un tel modèle peut alors permettre d’adapter le traitement réalisé dans chaque

vue après connaissance de caractéristiques particulières sur ces vues (e.g. les types des descripteurs).

Ce constat a donné lieu aux dernières approches proposées, se fondant complètement

sur des principes tirés du clustering semi-supervisé, problématique qui a été étudié également

dans cette thèse.

Le second apport proposé concerne alors l’intégration de connaissances externes en classification

non supervisée. Dans ce contexte, la contribution est double puisque nous proposons

une approche fondée sur le boosting dans un contexte non supervisé : BOC, et une approche

fondée sur un algorithme d’optimisation numérique adapté : UZABOC. En particulier,

210 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

nous montrons comment une variante de la seconde approche (ADAUZABOC) peut s’interpréter

en terme de boosting. Ces contributions suivent directement les travaux de [Liu et al., 2007]

(BOOSTCLUSTER) fonctionnant par génération successive de sous-espaces de représentation des

données dans lequel un algorithme quelconque de clustering permettrait de mieux regrouper les

individus, et en particulier, les individus pour lesquels des connaissances externes sont disponibles.

Nous proposons pour chaque contribution un formalisme adapté basé sur deux principes

que sont la cohérence vis à vis de la représentation d’origine, et la consistance vis à vis des

connaissances externes. Nous montrons en particulier que l’approche BOOSTCLUSTER optimise

un critère proche du critère de consistance proposé dans le cadre de la contribution BOC. La

seconde contribution UZABOC et sa variante ADAUZABOC permettent d’apprendre simultanément

un clustering respectant au mieux les connaissances externes, et la fonction de distance

permettant d’obtenir ce clustering. En particulier cette fonction de distance est obtenue comme

l’optimum d’un problème d’optimisation sous contraintes. Dans les cas où la convergence n’est

pas atteinte, la sous-optimalité du sous espace de projection optimal définissant la fonction de

distance peut être quantifiée.

Les contributions proposées sont suffisamment génériques pour pouvoir améliorer différents

algorithmes de clustering étant données les connaissances externes. En particulier, elles n’utilisent

aucune propriété caractérisant de tels algorithmes. La variante ADAUZABOC est alors opérationnelle

pour pouvoir être étendu à un contexte de multiplicité des données à travers une

plateforme collaborative fondée sur l’échange de contraintes entre vues, prises dans chacune

comme des connaissances externes.

Le troisième apport proposé a permis de fonder les bases de la collaboration entre algorithmes

de clustering quelconques pour atteindre l’objectif de consensus, ou minimisation du

désaccord comme suggéré dans le cadre multi-vues. Nous montrons de plus que la collaboration

peut être envisagée pour atteindre l’objectif, au contraire, de divergence entre les vues,

comme suggéré par les approches dédiées au problème du clustering alternatif. En ce sens la plateforme

permet, modulo le mécanisme de collaboration, de proposer des solutions au problème

du clustering multi-vues, rejoignant dans ce contexte le clustering d’ensemble et le clustering collaboratif,

et en même temps au problème du clustering alternatif. Les contributions proposées :

COBOC et ALTERBOC, se fondant sur ADAUZABOC, permettent alors simultanément d’apprendre

un ensemble de fonctions de distances (une par vue ou alternative) et au choix, un ensemble

de clusterings consensus ou de clusterings alternatifs. L’approche nécessite cependant plusieurs

paramètres pour espérer atteindre ces objectifs, qu’elle atteint alors de manière heuristique et

peu contrôlée. Pour finir elle vise à constituer une contribution de base à l’édifice de la recherche

d’une approche unifiée au clustering et ses problèmes satellites, préoccupation très actuelle dans

la communauté de la fouille de données (figure 4.11).

Perspectives

Les perspectives de ce travail de thèse concernent essentiellement la dernière approche proposée

: la plateforme collaborative déclinée en COBOC et ALTERBOC. Parmi les points qui ont été

abordés en conclusion de ces approches, certains peuvent se retrouver dans les approches suggérées

dans la figure 4.11. En particulier, on s’intéresse à la possibilité d’apprendre directement

les contraintes pour tendre vers un objectif de consensus, ou d’obtention d’alternatives, et non

de devoir fixer à l’avance la stratégie de génération de ces contraintes. Une autre perspective,

beaucoup plus à court terme, est la valorisation expérimentale de l’approche, où la nécessité de

l’appliquer sur différents jeux de données notamment multi-représentées.

Concernant les approches BOC, UZABOC et ADAUZABOC, la première perspective envisageable

est de changer l’objectif de cohérence. Celui-ci est fondé sur l’ACP, or de nombreuses

4.9. CONCLUSION 211

FIGURE 4.11 — L’unification des problèmes du clustering. L’objectif actuel est de proposer une approche

intégrant un moyen de réaliser simultanément du clustering dans des sous-espaces (par exemple par

ACP), du clustering semi-supervisé, du clustering multi-vues et alternatif.

autres techniques de recherche de sous-espaces ou variétés sur lesquels sont distribuées les données

existent, et il serait important de tester l’impact de leur utilisation en lieu et place du critère

de cohérence choisi. Ce changement aura également une influence sur les développements de

COBOC et ALTERBOC, et ils peuvent aller à l’encontre des observations faites. D’un point de vue

plus technique, la convergence des approches UZABOC et ADAUZABOC n’est pour l’heure qu’observée,

et celle-ci n’est pas atteinte dans tous les cas. On peut alors s’interroger naturellement

sur l’identification de propriétés sur les données, jointes aux contraintes, permettant de garantir

une convergence vers la solution optimale. Notons toutefois que même si l’algorithme d’Uzawa

utilisé dans ces approches n’atteint pas d’optimal au sens de la dualité forte, il permet d’obtenir

une solution approchée, la meilleure possible et caractérisable par une notion de sous-optimalité

qui est quantifiable.

En ce qui concerne l’approche originelle COFKM, à partir de laquelle se sont fondés tous

les développements ultérieurs, un problème solvable dans le modèle COFKM, est celui de la

correspondance entre les groupes. Tel que le modèle est proposé, la correspondance est posée

dès l’initialisation des centres dans chaque vue (les mêmes individus sont tirés comme centre

initiaux). Le critère de désaccord peut être modifié de sorte à identifier pour un groupe donné,

la valeur de son indice dans chaque vue. Toujours pour l’approche COFKM, il peut être intéressant

d’observer la production de clusterings alternatifs en changeant le signe de la pénalisation

du critère. En effet, comme il a été présenté dans cette thèse, il existe un lien étroit entre la

recherche de plusieurs clusterings alternatifs à déterminer à partir de données mono-vue, et la

212 CHAPITRE 4. CLASSIFICATION NON SUPERVISÉE COLLABORATIVE

recherche d’un clustering consensus à partir de données multi-vues. Cette analogie est concrète

dans les approches présentées basées sur le modèle de mélange : COEM et CAMI. L’un pénalise

la somme des critères de log-vraisemblance classiques par une divergence de Kullback-Leibler

(KL) entre les clusterings locaux, l’autre par l’information mutuelle (MI) entre ceux-ci. Or la

dualité entre les mesures KL etMI entre deux clusterings est admise, dans le sens où maximiser

l’une des quantités revient à minimiser l’autre. La proposition d’une variante de COFKM pour la

recherche d’alternatives se justifie alors pleinement.

Liste des tableaux

2.1 Évaluation externe de COFKM sur mfeat comparé aux approches mono-vues. . . . . 81

2.2 Évaluation externe de COFKM sur 2D2K comparé aux approches mono-vues. . . . . 82

2.3 Évaluation externe de COFKM sur mfeat comparé aux approches centralisées multivues.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2.4 Évaluation externe de COFKM sur 2D2K comparé aux approches centralisées multivues.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2.5 Évaluation externe de COFKM sur mfeat comparé aux différentes solutions de fusion. 84

2.6 Évaluation externe de COFKM sur 2D2K comparé aux différentes solutions de fusion. 84

3.1 Données pour le clustering semi-supervisé . . . . . . . . . . . . . . . . . . . . . . . . 123

4.1 Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. . . . . . . 183

4.2 Évaluation externe de COBOC consensus sur Iris selon les résultats locaux. . . . . . . 184

4.3 Évaluation externe de COBOC complémentaire sur Iris selon les résultats locaux. . . 185

4.4 Évaluation externe de COBOC consensus sur Wine selon les résultats locaux. . . . . . 185

4.5 Évaluation externe de COBOC complémentaire sur Wine selon les résultats locaux. . 186

4.6 Évaluation externe de COBOC consensus sur parkinson selon les résultats locaux. . . 186

4.7 Évaluation externe de COBOC complémentaire sur parkinson selon les résultats locaux.187

4.8 Évaluation externe de COFKM dans le contexte de la combinaison de modèles. . . . 187

4.9 Évaluation externe de COBOC consensus sur Iris selon différentes fusions finales pour

les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

4.10 Évaluation externe de COBOC complémentaire sur Iris selon différentes fusions finales

pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

4.11 Évaluation externe de COBOC consensus sur Wine selon différentes fusions finales

pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

4.12 Évaluation externe de COBOC complémentaire sur Wine selon différentes fusions

finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

4.13 Évaluation externe de COBOC consensus sur parkinson selon différentes fusions finales

pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

4.14 Évaluation externe de COBOC complémentaire sur parkinson selon différentes fusions

finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . . . . . . . . . . . . 194

4.15 Évaluation externe de COBOC sur Iris selon différentes fusions finales multi-vues. . . 195

4.16 Évaluation externe de COBOC sur Wine selon différentes fusions finales multi-vues. . 196

4.17 Évaluation externe de COBOC sur parkinson selon différentes fusions finales multi-vues.196

4.18 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux. . . . . . 197

4.19 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux obtenus

par l’application de plusieurs FKM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

4.20 Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux

obtenus par l’application de plusieurs FKM. . . . . . . . . . . . . . . . . . . . . . . . 198

4.21 Évaluation externe de COBOC consensus sur mfeat selon les résultats locaux obtenus

par l’application d’algorithmes différents. . . . . . . . . . . . . . . . . . . . . . . . . 199

214 LISTE DES TABLEAUX

4.22 Évaluation externe de COBOC complémentaire sur mfeat selon les résultats locaux

obtenus par l’application d’algorithmes différents. . . . . . . . . . . . . . . . . . . . . 199

4.23 Évaluation externe de COFKM sur mfeat. . . . . . . . . . . . . . . . . . . . . . . . . . 200

4.24 Évaluation externe de COBOC consensus avec plusieurs algorithmes différents sur

mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . 201

4.25 Évaluation externe de COBOC complémentaire avec plusieurs algorithmes différents

sur mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . 202

4.26 Évaluation externe de COBOC consensus avec plusieurs algorithmes FKM sur mfeat

selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . . . . . 203

4.27 Évaluation externe de COBOC complémentaire avec plusieurs algorithmes FKM sur

mfeat selon différentes fusions finales pour les noyaux K1 et K2. . . . . . . . . . . . 204

4.28 Évaluation externe de COBOC avec plusieurs algorithmes différents sur mfeat selon

différentes fusions finales multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

4.29 Évaluation externe de COBOC avec plusieurs algorithmes FKM sur mfeat selon différentes

fusions finales multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

 

Table des figures

0.1 Données désordonnées avant clustering et ordonnées après clustering. . . . . . . . . . 9

0.2 Analyse exploratoire des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

0.3 Différents types de données multi-vues. . . . . . . . . . . . . . . . . . . . . . . . . . 16

0.4 Problématiques concernant la multiplicité des données et la multiplicité des analyses. 19

1.1 Dendrogramme d’un clustering hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 29

1.2 Résultats d’algorithme agglomératif hiérarchique . . . . . . . . . . . . . . . . . . . . 29

1.3 Déroulement de KM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.4 Déroulement de DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.1 Les différentes fusions du clustering multi-vues. . . . . . . . . . . . . . . . . . . . . . 52

2.2 Un modèle COMRAF et sa décompostion en plusieurs COMRAF*. . . . . . . . . . . . 63

2.3 Évaluation interne de COFKM sur 2D2K. . . . . . . . . . . . . . . . . . . . . . . . . . 80

2.4 Évaluation interne de COFKM sur mfeat. . . . . . . . . . . . . . . . . . . . . . . . . . 80

2.5 Influence des paramètres _ et _ sur COFKM. . . . . . . . . . . . . . . . . . . . . . . . 84

2.6 Évaluation externe de COFKM selon le paramètre _. . . . . . . . . . . . . . . . . . . 85

2.7 Évolution du critère COFKM sur mfeat . . . . . . . . . . . . . . . . . . . . . . . . . . 85

2.8 Évaluation externe de COKFKM sur WebKB. . . . . . . . . . . . . . . . . . . . . . . . 86

3.1 Intégration de contraintes dans le clustering semi-supervisé. . . . . . . . . . . . . . . 92

3.2 Réseau de Markov pour le clustering semi-supervisé. . . . . . . . . . . . . . . . . . . 97

3.3 Méta-algorithmes pour le clustering semi-supervisé. . . . . . . . . . . . . . . . . . . . 108

3.4 Schéma du déroulement d’UZABOC. . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3.5 Schéma du déroulement d’ADAUZABOC. . . . . . . . . . . . . . . . . . . . . . . . . . 122

3.6 Illustration des méthodes de recherche UZABOC et ADAUZABOC. . . . . . . . . . . . 124

3.7 Légende de l’évaluation interne des approches semi-supervisées. . . . . . . . . . . . . 126

3.8 Légende de l’évaluation externe des approches semi-supervisées. . . . . . . . . . . . 126

3.9 Convergence de BOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . . . . . . 128

3.10 Convergence de UZABOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . . . . 129

3.11 Convergence de ADAUZABOC avec KM sur Iris centré et réduit. . . . . . . . . . . . . 130

3.12 Convergence de BOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . . . . . 131

3.13 Convergence de UZABOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . . . 132

3.14 Convergence de ADAUZABOC avec CLINK sur Iris centré et réduit. . . . . . . . . . . . 133

3.15 Comparatifs des approches semi-supervisées sur Iris centré et réduit. . . . . . . . . . 135

3.16 Comparatifs des approches semi-supervisées sur Parkinson centré et réduit. . . . . . . 135

3.17 Comparatifs des approches semi-supervisées sur Wine centré et réduit. . . . . . . . . 136

3.18 Comparatifs des approches semi-supervisées sur WDBC centré et réduit. . . . . . . . 136

3.19 Comparatifs des approches semi-supervisées sur Iris centré et réduit avec contraintes

bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

3.20 Comparatifs des approches semi-supervisées sur Parkinson centré et réduit avec contraintes

bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

TABLE DES FIGURES 217

3.21 Comparatifs des approches semi-supervisées surWine centré et réduit avec contraintes

bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

3.22 Comparatifs des approches semi-supervisées sur WDBC centré et réduit avec contraintes

bruitées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

3.23 Comparatifs des approches semi-supervisées sur Iris centré. . . . . . . . . . . . . . . 140

3.24 Comparatifs des approches semi-supervisées sur Parkinson centré. . . . . . . . . . . . 141

3.25 Comparatifs des approches semi-supervisées sur wine centré. . . . . . . . . . . . . . . 141

3.26 Comparatifs des approches semi-supervisées sur WDBC centré. . . . . . . . . . . . . . 142

4.1 clustering d’ensemble, clustering collaboratif et alternative clustering. . . . . . . . . . 148

4.2 Légende pour l’évaluation interne de COBOC et ALTERBOC. . . . . . . . . . . . . . . 174

4.3 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique consensus. . 175

4.4 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

4.5 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique consensus. . . . 177

4.6 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire. 178

4.7 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique global. . . . 180

4.8 Évolution de l’AvgNMI pour la combinaison de modèle et l’heuristique complémentaire.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

4.9 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique global. . . . . . 182

4.10 Évolution de l’AvgNMI pour le clustering multi-vues et l’heuristique complémentaire. 182

4.11 L’unification des problèmes du clustering. . . . . . . . . . . . . . . . . . . . . . . . . 211

 

Liste des algorithmes

1 DIANA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 AGNES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 KM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 SC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 DBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6 batch SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

7 FKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

8 EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

9 MVDBSCAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

10 COFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

11 FCPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

12 batch-MVADASOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

13 COMRAF* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

14 COEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

15 COFKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

16 COKFKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

17 Cop K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

18 CCHC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

19 EM contraint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

20 PCKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

21 SSKM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

22 LLMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

23 BC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

24 BOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

25 UZABOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

26 ADAUZABOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

27 CE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

28 FT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

29 SAMARAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

30 MOCLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

31 COALA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

32 ADFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

33 CAMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

34 COBOC consensus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

35 COBOC complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

36 ALTERBOC global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

37 ALTERBOC complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

 

Bibliographie

[Achtert et al., 2006] Achtert, E., Kriegel, H.-P., Pryakhin, A., and Schubert, M. (2006). Clustering multirepresented

objects using combination trees. In Ng, W. K., Kitsuregawa, M., Li, J., and Chang, K.,

editors, PAKDD, volume 3918 of Lecture Notes in Computer Science, pages 174–178. Springer.

[Aikake, 1973] Aikake, H. (1973). Information theory and an extension of the maximum likelihood principle.

In Petrov, B. N. and Csaki, F., editors, Proceedings of 2nd International Symposium on Information

Theory, pages 267–281. Akademiai Kiado.

[Aupetit, 2006] Aupetit, M. (2006). Learning topology with the generative gaussian graph and the em

algorithm. In Advances in Neural Information Processing Systems, page 2006.

[Bae and Bailey, 2006] Bae, E. and Bailey, J. (2006). Coala: A novel approach for the extraction of an

alternate clustering of high quality and high dissimilarity. In ICDM, pages 53–62. IEEE Computer

Society.

[Basu et al., 2004] Basu, S., Banerjee, A., and Mooney, R. J. (2004). Active semi-supervision for pairwise

constrained clustering. In Berry, M. W., Dayal, U., Kamath, C., and Skillicorn, D. B., editors, SDM.

SIAM.

[Bekkerman and Jeon, 2007] Bekkerman, R. and Jeon, J. (2007). Multi-modal clustering for multimedia

collections. In CVPR.

[Bekkerman et al., 2006] Bekkerman, R., Sahami, M., and Learned-Miller, E. (2006). Combinatorial

Markov Random Fields. In Proceedings of ECML-06, the 17th European Conference on Machine Learning,

pages 30–41.

[Bezdek, 1981] Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms.

Plenum Press, New York.

[Bickel and Scheffer, 2004] Bickel, S. and Scheffer, T. (2004). Multi-view clustering. In Proceedings of

the Fourth IEEE International Conference on Data Mining, ICDM ’04, pages 19–26, Washington, DC,

USA. IEEE Computer Society.

[Bickel and Scheffer, 2005] Bickel, S. and Scheffer, T. (2005). Estimation of mixture models using co-

EM. In 16th European Conference on Machine Learning ECML 2001, volume 3720 of Lecture Notes in

Artificial Intelligence, pages 35–46. Springer.

[Biernacki, 2009] Biernacki, C. (2009). Pourquoi les modèles de mélange pour la classification ? Revue

de MODULAD, (40):1–22.

[Blum and Mitchell, 1998] Blum, A. and Mitchell, T. (1998). Combining labeled and unlabeled data

with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan

Kaufmann Publishers.

[Celeux and Govaert, 1992] Celeux, G. and Govaert, G. (1992). A classification em algorithm for clustering

and two stochastic versions. Comput. Stat. Data Anal., 14(3):315–332.

[Chang and Yeung, 2004] Chang, H. and Yeung, D.-Y. (2004). Locally linear metric adaptation for semisupervised

clustering. In Proceedings of the twenty-first international conference on Machine learning,

ICML ’04, pages 20–, New York, NY, USA. ACM.

[Cleuziou et al., 2009] Cleuziou, G., Exbrayat, M., Martin, L., and Sublemontier, J.-H. (2009). CoFKM :

a Centralized Method for Multiple-View Clustering. In ICDM 2009, The Ninth IEEE International Conference

on Data Mining, pages 752–757, Miami, United States.

222 BIBLIOGRAPHIE

[Dang and Bailey, 2010] Dang, X. H. and Bailey, J. (2010). Generation of alternative clusterings using

the cami approach. In SDM, pages 118–129. SIAM.

[Davidson and Basu, 2007] Davidson, I. and Basu, S. (2007). A survey of clustering with instance level

constraints. In ACM Transactions on Knowledge Discovery from Data, pages 1–41. ACM.

[Davidson and Qi, 2008] Davidson, I. and Qi, Z. (2008). Finding alternative clusterings using

constraints. In ICDM, pages 773–778. IEEE Computer Society.

[Davidson and Ravi, 2005a] Davidson, I. and Ravi, S. S. (2005a). Agglomerative hierarchical clustering

with constraints: Theoretical and empirical results. In Jorge, A., Torgo, L., Brazdil, P., Camacho, R.,

and Gama, J., editors, PKDD, volume 3721 of Lecture Notes in Computer Science, pages 59–70. Springer.

[Davidson and Ravi, 2005b] Davidson, I. and Ravi, S. S. (2005b). Clustering with constraints: Feasibility

issues and the k-means algorithm. In SDM.

[Dempster et al., 1977] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum Likelihood from Incomplete

Data via the EM Algorithm. Journal of Royal Statistical Society B, 39:1–38.

[Dhillon et al., 2005] Dhillon, I. S., Guan, Y., and Kulis, B. (2005). A unified view of kernel k-means,

spectral clustering and graph cuts. Technical Report TR-04-25, University of Texas Dept. of Computer

Science.

[Ding et al., 2005] Ding, C., He, X., and Simon, H. D. (2005). On the equivalence of nonnegative matrix

factorization and spectral clustering. In Proc. SIAM Data Mining Conf, pages 606–610.

[dos S. Dantas and de Carvalho, 2011] dos S. Dantas, A. B. and de Carvalho, F. (2011). Adaptive batch

som for multiple dissimilarity data tables. In ICTAI, pages 575–578. IEEE.

[Ester et al., 1996] Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. (1996). A density-based algorithm for

discovering clusters in large spatial databases with noise. In KDD, pages 226–231.

[Faceli et al., 2009] Faceli, K., de Souto, M. C. P., de Araujo, D. S. A., and de Carvalho, A. C. P. L. F.

(2009). Multi-objective clustering ensemble for gene expression data analysis. Neurocomputing,

72(13-15):2763–2774.

[Forestier, 2010] Forestier, G. (2010). Connaissances et classification multistratégie d’objets complexes

multisources.

[Frey and Dueck, 2007] Frey, B. J. and Dueck, D. (2007). Clustering by passing messages between data

points. Science, 315:2007.

[Gan et al., 2007a] Gan, G., Ma, C., and Wu, J. (2007a). Data clustering - theory, algorithms, and applications.

SIAM.

[Gan et al., 2007b] Gan, G., Ma, C., and Wu, J. (2007b). Grid-based clustering algorithms.

[Grozavu and Bennani, 2010] Grozavu, N. and Bennani, Y. (2010). Topological collaborative clustering.

Australian Journal of Intelligent Information Processing Systems, 12(3). Machine Learning Applications

(Part I).

[Grozavu et al., 2011] Grozavu, N., Ghassany, M., and Bennani, Y. (2011). Learning confidence exchange

in collaborative clustering. In Proceedings of the International Joint Conference on Neural Networks

(IJCNN 2011), pages 872–879, San Jose, California, USA. IEEE.

[Guénoche, 2011] Guénoche, A. (2011). Consensus of partitions : a constructive approach. Adv. Data

Analysis and Classification, 5(3):215–229.

[Heer and Chi, 2002] Heer, J. and Chi, E. H. (2002). Mining the Structure of User Activity using Cluster

Stability. In proceedings of the Web Analytics Workshop, SIAM Conference on Data Mining.

[Jain, 2008] Jain, A. K. (2008). Data clustering: 50 years beyond k-means. In Daelemans, W., Goethals,

B., and Morik, K., editors, ECML/PKDD (1), volume 5211 of Lecture Notes in Computer Science, pages

3–4. Springer.

[Kailing et al., 2004] Kailing, K., Kriegel, H.-P., Pryakhin, A., and Schubert, M. (2004). Clustering multirepresented

objects with noise. In Proceedings of the Pacific-Asia Conference on Knowledge Discovery

and Data Mining, pages 394–403.

BIBLIOGRAPHIE 223

[Karypis and Kumar, 1998] Karypis, G. and Kumar, V. (1998). A fast and high quality multilevel scheme

for partitioning irregular graphs. SIAM JOURNAL ON SCIENTIFIC COMPUTING, 20(1):359–392.

[Kaufman and Rousseeuw, 1990] Kaufman, L. and Rousseeuw, P. J. (1990). Finding Groups in Data. An

Introduction to Cluster Analysis. John Wiley & Sons, Inc.

[Klein et al., 2002] Klein, D., Kamvar, S., and Manning, C. (2002). From instance-level constraints to

space-level constraints: Making the most of prior knowledge in data clustering.

[Kohonen, 1988] Kohonen, T. (1988). Neurocomputing: foundations of research. chapter Self-organized

formation of topologically correct feature maps, pages 509–521. MIT Press, Cambridge, MA, USA.

[Kriegel and Zimek, 2010] Kriegel, H.-P. and Zimek, A. (2010). Subspace Clustering, Ensemble Clustering,

Alternative Clustering, Multiview Clustering: What Can We Learn From Each Other? In Proceedings

of MultiClustKDD.

[Kulis et al., 2005] Kulis, B., Basu, S., Dhillon, I., and Mooney, R. (2005). Semi-supervised graph clustering:

a kernel approach. In ICML ’05: Proceedings of the 22nd international conference on Machine

learning, pages 457–464, New York, NY, USA. ACM.

[Lashkari and Golland, 2008] Lashkari, D. and Golland, P. (2008). Convex clustering with exemplarbased

models. In Platt, J., Koller, D., Singer, Y., and Roweis, S., editors, Advances in Neural Information

Processing Systems 20, pages 825–832. MIT Press, Cambridge, MA.

[Li, 2008] Li, T. (2008). Clustering based on matrix approximation: a unifying view. Knowl. Inf. Syst.,

17(1):1–15.

[Liu et al., 2007] Liu, Y., Jin, R., and Jain, A. K. (2007). Boostcluster: boosting clustering by pairwise

constraints. In Berkhin, P., Caruana, R., and Wu, X., editors, KDD, pages 450–459. ACM.

[Luxburg, 2007] Luxburg, U. (2007). A tutorial on spectral clustering. Statistics and Computing,

17(4):395–416.

[MacQueen, 1967] MacQueen, J. (1967). Some methods for classification and analysis of multivariate

observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability,

volume 1, pages 281–297, Berkeley. University of California Press.

[Martin et al., 2006] Martin, C., grosse Deters, H., and Nattkemper, T. W. (2006). Fusing biomedical

multi-modal data for exploratory data analysis. In ICANN 2006, Part II, LNCS 4132, pages 798–807.

[Mesghouni et al., 2011] Mesghouni, N., Ghedira, K., and Temani, M. (2011). Unsupervised horizontal

collaboration based in som.

[Ng et al., 2001] Ng, A. Y., Jordan, M. I., and Weiss, Y. (2001). On spectral clustering: Analysis and

an algorithm. In ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, pages 849–856. MIT

Press.

[Pedrycz, 2002] Pedrycz, W. (2002). Collaborative fuzzy clustering. Pattern Recogn. Lett., 23(14):1675–

1686.

[Regnier, 1965] Regnier, S. (1965). Sur quelques aspects mathématiques des problèmes de classification

automatique.

[Reza et al., 2009] Reza, G., Md. Nasir, S., Hamidah, I., and Norwati, M. (2009). A survey: Clustering

ensembles techniques. Proceedings of World Academy of Science, Engineering and Technology, 38:644–

653.

[Schwarz, 1978] Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics,

6:461–464.

[Shental et al., 2003] Shental, N., Hertz, T., Bar-Hillel, A., and Weinshall, D. (2003). Computing gaussian

mixture models with em using side-information. In In Advances in Neural Information Processing

Systems 16. MIT Press.

[Shi and Malik, 2000] Shi, J. and Malik, J. (2000). Normalized cuts and image segmentation. IEEE

Transactions on Pattern Analysis and Machine Intelligence (PAMI).

224 BIBLIOGRAPHIE

[Strehl and Ghosh, 2003] Strehl, A. and Ghosh, J. (2003). Cluster ensembles — a knowledge reuse

framework for combining multiple partitions. J. Mach. Learn. Res., 3:583–617.

[Sublemontier et al., 2009] Sublemontier, J.-H., Cleuziou, G., Exbrayat, M., and Martin, L. (2009). Regroupement

de données multi-représentées : une approche par k-moyenne flou. In EGC 2009, 9è

Journées Francophones Extraction et Gestion des Connaissances, Actes des ateliers, Strasbourg, France.

[Sublemontier et al., 2011a] Sublemontier, J.-H., Cleuziou, G., Exbrayat, M., and Martin, L. (2011a).

Clustering multi-vues : une approche centralisée. Revue des Nouvelles Technologies de l’Information,

numéro spécial Fouille de Données Complexes : données multiples.

[Sublemontier et al., 2011b] Sublemontier, J.-H., Martin, L., Cleuziou, G., and Exbrayat, M. (2011b).

Integrating pairwise constraints into clustering algorithms: optimization-based approaches. In ICDMW

2011, The Eleventh IEEE International Conference on Data Mining Workshops, Vancouver, Canada.

[Sublemontier et al., 2011c] Sublemontier, J.-H., Martin, L., Cleuziou, G., and Exbrayat, M. (2011c).

Intégration de contraintes must-link et cannot-link pour la classification : une approche indépendante

de l’algorithme. In XVIIIèmes Rencontres de la Société Francophone de Classification, pages 153–156,

Orléans, France.

[van Breukelen et al., 1998] van Breukelen, M. P. W., Tax, D. M. J., and den Hartog, J. E. (1998). Handwritten

digit recognition by combined classifiers,. Kybernetika, vol. 34:381–386.

[Vega-Pons and Ruiz-Shulcloper, 2011] Vega-Pons, S. and Ruiz-Shulcloper, J. (2011). A survey of clustering

ensemble algorithms. IJPRAI, 25(3):337–372.

[Wagstaff and Cardie, 2000] Wagstaff, K. and Cardie, C. (2000). Clustering with instance-level

constraints. In Proceedings of the Seventeenth International Conference on Machine Learning, pages

1103–1110.

[Wagstaff et al., 2001] Wagstaff, K., Cardie, C., Rogers, S., and Schrödl, S. (2001). Constrained k-means

clustering with background knowledge. In Proceedings of the Eighteenth International Conference on

Machine Learning, ICML ’01, pages 577–584, San Francisco, CA, USA. Morgan Kaufmann Publishers

Inc.

[Wemmert et al., 2000] Wemmert, C., Gançarski, P., and Korczak, J. J. (2000). A collaborative approach

to combine multiple learning methods. International Journal on Artificial Intelligence Tools, 9(1):59–

78.

[Wiswedel and Berthold, 2007] Wiswedel, B. and Berthold, M. R. (2007). Fuzzy clustering in parallel

universes. Int. J. Approx. Reasoning, 45(3):439–454.

[Xing et al., 2002a] Xing, E. P., Ng, A. Y., Jordan, M. I., and Russell, S. (2002a). Distance metric learning,

with application to clustering with side-information. In Advances in Neural Information Processing

Systems 15, pages 505–512. MIT Press.

[Xing et al., 2002b] Xing, E. P., Ng, A. Y., Jordan, M. I., and Russell, S. J. (2002b). Distance metric

learning with application to clustering with side-information. In Becker, S., Thrun, S., and Obermayer,

K., editors, NIPS, pages 505–512. MIT Press.

[Yamanishi et al., 2004] Yamanishi, Y., p. Vert, J., and Kanehisa, M. (2004). Protein network inference

from multiple genomic data: a supervised approach. Bioinformatics, 20(1):i363–i370.

[Zadeh, 1965] Zadeh, L. A. (1965). Fuzzy sets. Information and Control, 8(3):338–353.

[Zeng et al., 2010] Zeng, E., Yang, C., Li, T., and Narasimhan, G. (2010). Clustering genes using heterogeneous

data sources. IJKDB, 1(2):12–28.

[Zhang et al., 2003] Zhang, Z., Kwok, J. T., and Yeung, D.-Y. (2003). Parametric distance metric learning

with label information. In In Proceedings of the Eighteenth International Joint Conference on Artificial

Intelligence, pages 1450–1452.

 

Jacques-Henri SUBLEMONTIER

Classification non supervisée :

de la multiplicité des données à la multiplicité des analyses

Résumé : La classification automatique non supervisée est un problème majeur, aux frontières de

multiples communautés issues de l’Intelligence Artificielle, de l’Analyse de Données et des Sciences de la

Cognition. Elle vise à formaliser et mécaniser la tâche cognitive de classification, afin de l’automatiser

pour la rendre applicable à un grand nombre d’objets (ou individus) à classer. Des visées plus applicatives

s’intéressent à l’organisation automatique de grands ensembles d’objets en différents groupes

partageant des caractéristiques communes. La présente thèse propose des méthodes de classification

non supervisées applicables lorsque plusieurs sources d’informations sont disponibles pour compléter

et guider la recherche d’une ou plusieurs classifications des données. Pour la classification non supervisée

multi-vues, la première contribution propose un mécanisme de recherche de classifications

locales adaptées aux données dans chaque représentation, ainsi qu’un consensus entre celles-ci. Pour

la classification semi-supervisée, la seconde contribution propose d’utiliser des connaissances externes

sur les données pour guider et améliorer la recherche d’une classification d’objets par un algorithme

quelconque de partitionnement de données. Enfin, la troisième et dernière contribution propose un

environnement collaboratif permettant d’atteindre au choix les objectifs de consensus et d’alternatives

pour la classification d’objets mono-représentés ou multi-représentés. Cette dernière contribution répond

ainsi aux différents problèmes de multiplicité des données et des analyses dans le contexte de la

classification non supervisée, et propose, au sein d’une même plate-forme unificatrice, une proposition

répondant à des problèmes très actifs et actuels en Fouille de Données et en Extraction et Gestion des

Connaissances.

Mots clés : Intelligence Artificielle, Apprentissage automatique, Classification non supervisée, Données

multi-vues, Consensus de partitions, Co-Apprentissage, Recherche d’alternatives.

Clustering :

from multiple data to multiple analysis

Abstract: Data clustering is a major problem encountered mainly in related fields of Artificial Intelligence,

Data Analysis and Cognitive Sciences. This topic is concerned by the production of synthetic tools

that are able to transform a mass of information into valuable knowledge. This knowledge extraction

is done by grouping a set of objects associated with a set of descriptors such that two objects in a same

group are similar or share a same behaviour while two objects from different groups does not. This

thesis present a study about some extensions of the classical clustering problem for multi-view data,

where each datum can be represented by several sets of descriptors exhibing different behaviours or

aspects of it. Our study impose to explore several nearby problems such that semi-supervised clustering,

multi-view clustering or collaborative approaches for consensus or alternative clustering. In a

first chapter, we propose an algorithm solving the multi-view clustering problem. In the second chapter,

we propose a boosting-inspired algorithm and an optimization based algorithm closely related to

boosting that allow the integration of external knowledge leading to the improvement of any clustering

algorithm. This proposition bring an answer to the semi-supervised clustering problem. In the

last chapter, we introduce an unifying framework allowing the discovery even of a set of consensus

clustering solution or a set of alternative clustering solutions for mono-view data and or multi-view

data. Such unifying approach offer a methodology to answer some current and actual hot topic in

Data Mining and Knowledge Discovery in Data.

Keywords: Artificial Intelligence, Machine Learning, Clustering, Multi-view data, Clustering ensemble,

Co-Training, Alternative clustering.

Laboratoire d’Informatique Fondamentale d’Orléans

Bâtiment 3IA, rue Léonard de Vinci, B.P. 6759

45067 ORLEANS cedex 2, FRANCE